Autor | Zpráva | ||
---|---|---|---|
imploder Profil |
#1 · Zasláno: 22. 9. 2010, 10:36:32
Stahuju wgetem PHPBB fórum a potřebuju stáhnout jenom určité stránky. Takže omezím názvy souborů - např. takto:
wget -r -p -k -E -l inf -A "index.php,viewforum.php*,viewtopic.php*" http://forum.com/index.php Problém mám s chováním wgetu zmíněným tady - to znamená, že wget postahuje všechny stránky a všechny stránky z nich odkazované atd., jenom vždycky když jméno není na seznamu, tak staženou stránku smaže. To vede k tomu, že stahuje spoustu balastu, který nepotřebuju, jak web prolézá. Potřebuju zařídit, aby na stránky s neodpovídajícím názvem vůbec nevstupoval. Tj. když nějaký odkaz vede např. na "houba.html" a wget pouštím s -A "index.php,viewforum.php*,viewtopic.php*", tak aby na tu stránku vůbec nechodil a rozhodně z ní nepokračoval dál na stránky, na které tam najde odkazy. Dá se to nějak zařídit? Díky P.S.: Další problém je, že neopraví odkazy na soubory s názvem obsahujícím v URL zakázané znaky jako '&' nebo '?' (takové soubory vzniknou když se stahuje výstup skriptů s parametry předávanými v URL - třeba forum.php?neco=bla&dalsiparametr=x). V URL jsou tyhle znaky vyhrazené jako speciaální, takže pokud se vyskytují v názvu statického souboru, musí se převést na hex kódy (%XX). Už jsem si na to napsal skript, ale zajímalo by mně, jestli tohle wget taky umí (jestli jsem nepsal ten skript zbytečně). |
||
Kajman_ Profil * |
#2 · Zasláno: 22. 9. 2010, 13:14:11
Nešlo by to přes robots.txt? Zakázat wgetu vše a pak povolit ty tři začátky adres? On totiž html soubory asi stahuje vždy a hledá v nich cesty na akceptované stránky či soubory.
neopraví odkazy na soubory s názvem obsahujícím v URL zakázané znaky jako '&' nebo '?' Minimálně otazník řeší --restrict-file-names=windows |
||
Časová prodleva: 14 let
|
0