Autor Zpráva
andynewcastleth
Profil
Stěhuji web z jednoho systému na druhý. Potřebuji projít starý web a získat seznam aktivních URL a následně projít nový web a získat všechny aktivní URL. A porovnat jestli nějaké stránky chybí/jsou nefunkční.

Ale nedaří se mi najít žádný free crawler/sitemap creator? Bez toho bych musel uvádět kreditní kartu; měl limit 5000 stránek; max. 1000 stránek za hodinu atd. atd. atd.? Klidně i desktopové řešení? Máte osobní zkušenost?
Kajman
Profil
Pro získání starých url bych asi kouknul do původního systému a tam si vygeneroval adresy, co by měl umět. Pak bych na to pustil wget nebo httrack. K původním adresám bych přidal adresy z http logu, které nekončily chybou (budou tam z normálního provozu i ty od stahovače).

Získaný seznam adres se dá opět předhodit wgetu nebo httracku, aby je zkontroloval na novém serveru (chyby by měly být ve výstupu stahovače, navíc budou také v lozích http serveru).

www.gnu.org/software/wget
www.httrack.com
andynewcastleth
Profil
"Původní systém" je web, který jsem začal psát v roce 2009 a který rostl a rostl do dnešního dne do tisíců stránek. A bohužel historicky jsou tam kombinované databáze, používání souborů místo databází, natvrdo napsané stránky v kódu a další způsoby tvoření podstránek aj.... .

Proto potřebuji nějaký crawler nebo něco, co by manuálně prošel funkční web a dal mi seznam aktivních URL... .

Následně již mohu použít wget/httrack....
blaaablaaa
Profil
andynewcastleth:
Co zkusit nějaký sitemap generator na ten starý web - něco z code.google.com/archive/p/sitemap-generators/wikis/SitemapGenerators.wiki
Kajman
Profil
andynewcastleth:
Pokud jsou všechny url doklikatelné, tak zadáte úvodní stránku, povolíte rekurzi pro danou doménu a wget/httrack bude procházet daný web. Pokud je nějaká část, do které se odkazy nestane, tak ji nenajde (tam je lepší ten http log - ale můžete např. najít seznam adres z http logu a zkombinovat s rekurzivním stahováním).

Prostě wget i httrack jsou crawlery bežící lokálně.
Kcko
Profil
XENU
andynewcastleth
Profil
Kcko:

Ano. Ano. Ano. Já jsem na něj úplně zapomněl. Ale toto je přesně co jsem hledal. S tímto si pamatuji jsem měl velmi dobré zkušenosti!

Vaše odpověď

Mohlo by se hodit

Pokuste se již v titulku uvést název programu související s tématem.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0