Autor Zpráva
imploder
Profil
Stahuju wgetem PHPBB fórum a potřebuju stáhnout jenom určité stránky. Takže omezím názvy souborů - např. takto:

wget -r -p -k -E -l inf -A "index.php,viewforum.php*,viewtopic.php*" http://forum.com/index.php 


Problém mám s chováním wgetu zmíněným tady - to znamená, že wget postahuje všechny stránky a všechny stránky z nich odkazované atd., jenom vždycky když jméno není na seznamu, tak staženou stránku smaže. To vede k tomu, že stahuje spoustu balastu, který nepotřebuju, jak web prolézá. Potřebuju zařídit, aby na stránky s neodpovídajícím názvem vůbec nevstupoval. Tj. když nějaký odkaz vede např. na "houba.html" a wget pouštím s -A "index.php,viewforum.php*,viewtopic.php*", tak aby na tu stránku vůbec nechodil a rozhodně z ní nepokračoval dál na stránky, na které tam najde odkazy. Dá se to nějak zařídit?

Díky

P.S.: Další problém je, že neopraví odkazy na soubory s názvem obsahujícím v URL zakázané znaky jako '&' nebo '?' (takové soubory vzniknou když se stahuje výstup skriptů s parametry předávanými v URL - třeba forum.php?neco=bla&dalsiparametr=x). V URL jsou tyhle znaky vyhrazené jako speciaální, takže pokud se vyskytují v názvu statického souboru, musí se převést na hex kódy (%XX). Už jsem si na to napsal skript, ale zajímalo by mně, jestli tohle wget taky umí (jestli jsem nepsal ten skript zbytečně).
Kajman_
Profil *
Nešlo by to přes robots.txt? Zakázat wgetu vše a pak povolit ty tři začátky adres? On totiž html soubory asi stahuje vždy a hledá v nich cesty na akceptované stránky či soubory.

neopraví odkazy na soubory s názvem obsahujícím v URL zakázané znaky jako '&' nebo '?'
Minimálně otazník řeší
--restrict-file-names=windows

Vaše odpověď

Mohlo by se hodit

Pokuste se již v titulku uvést název programu související s tématem.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0