Autor | Zpráva | ||
---|---|---|---|
andynewcastleth Profil |
#1 · Zasláno: 12. 11. 2019, 03:54:39
Stěhuji web z jednoho systému na druhý. Potřebuji projít starý web a získat seznam aktivních URL a následně projít nový web a získat všechny aktivní URL. A porovnat jestli nějaké stránky chybí/jsou nefunkční.
Ale nedaří se mi najít žádný free crawler/sitemap creator? Bez toho bych musel uvádět kreditní kartu; měl limit 5000 stránek; max. 1000 stránek za hodinu atd. atd. atd.? Klidně i desktopové řešení? Máte osobní zkušenost? |
||
Kajman Profil |
#2 · Zasláno: 12. 11. 2019, 08:00:18
Pro získání starých url bych asi kouknul do původního systému a tam si vygeneroval adresy, co by měl umět. Pak bych na to pustil wget nebo httrack. K původním adresám bych přidal adresy z http logu, které nekončily chybou (budou tam z normálního provozu i ty od stahovače).
Získaný seznam adres se dá opět předhodit wgetu nebo httracku, aby je zkontroloval na novém serveru (chyby by měly být ve výstupu stahovače, navíc budou také v lozích http serveru). www.gnu.org/software/wget www.httrack.com |
||
andynewcastleth Profil |
#3 · Zasláno: 12. 11. 2019, 09:09:37
"Původní systém" je web, který jsem začal psát v roce 2009 a který rostl a rostl do dnešního dne do tisíců stránek. A bohužel historicky jsou tam kombinované databáze, používání souborů místo databází, natvrdo napsané stránky v kódu a další způsoby tvoření podstránek aj.... .
Proto potřebuji nějaký crawler nebo něco, co by manuálně prošel funkční web a dal mi seznam aktivních URL... . Následně již mohu použít wget/httrack.... |
||
blaaablaaa Profil |
#4 · Zasláno: 12. 11. 2019, 09:19:52
andynewcastleth:
Co zkusit nějaký sitemap generator na ten starý web - něco z code.google.com/archive/p/sitemap-generators/wikis/SitemapGenerators.wiki |
||
Kajman Profil |
#5 · Zasláno: 12. 11. 2019, 09:28:51
andynewcastleth:
Pokud jsou všechny url doklikatelné, tak zadáte úvodní stránku, povolíte rekurzi pro danou doménu a wget/httrack bude procházet daný web. Pokud je nějaká část, do které se odkazy nestane, tak ji nenajde (tam je lepší ten http log - ale můžete např. najít seznam adres z http logu a zkombinovat s rekurzivním stahováním). Prostě wget i httrack jsou crawlery bežící lokálně. |
||
Kcko Profil |
#6 · Zasláno: 12. 11. 2019, 09:48:42
|
||
andynewcastleth Profil |
#7 · Zasláno: 12. 11. 2019, 10:00:23
Kcko:
Ano. Ano. Ano. Já jsem na něj úplně zapomněl. Ale toto je přesně co jsem hledal. S tímto si pamatuji jsem měl velmi dobré zkušenosti! |
||
Časová prodleva: 4 roky
|
0