Diskuse JPW: Doporučíte sitemap/crawler pro získání všech URL z domény?

	Autor	Zpráva
	andynewcastleth Profil	#1 · Zasláno: 12. 11. 2019, 03:54:39 Odpovědět Citovat Stěhuji web z jednoho systému na druhý. Potřebuji projít starý web a získat seznam aktivních URL a následně projít nový web a získat všechny aktivní URL. A porovnat jestli nějaké stránky chybí/jsou nefunkční. Ale nedaří se mi najít žádný free crawler/sitemap creator? Bez toho bych musel uvádět kreditní kartu; měl limit 5000 stránek; max. 1000 stránek za hodinu atd. atd. atd.? Klidně i desktopové řešení? Máte osobní zkušenost?
	Kajman Profil	#2 · Zasláno: 12. 11. 2019, 08:00:18 Odpovědět Citovat Pro získání starých url bych asi kouknul do původního systému a tam si vygeneroval adresy, co by měl umět. Pak bych na to pustil wget nebo httrack. K původním adresám bych přidal adresy z http logu, které nekončily chybou (budou tam z normálního provozu i ty od stahovače). Získaný seznam adres se dá opět předhodit wgetu nebo httracku, aby je zkontroloval na novém serveru (chyby by měly být ve výstupu stahovače, navíc budou také v lozích http serveru). www.gnu.org/software/wget www.httrack.com
	andynewcastleth Profil	#3 · Zasláno: 12. 11. 2019, 09:09:37 Odpovědět Citovat "Původní systém" je web, který jsem začal psát v roce 2009 a který rostl a rostl do dnešního dne do tisíců stránek. A bohužel historicky jsou tam kombinované databáze, používání souborů místo databází, natvrdo napsané stránky v kódu a další způsoby tvoření podstránek aj.... . Proto potřebuji nějaký crawler nebo něco, co by manuálně prošel funkční web a dal mi seznam aktivních URL... . Následně již mohu použít wget/httrack....
	blaaablaaa Profil	#4 · Zasláno: 12. 11. 2019, 09:19:52 Odpovědět Citovat andynewcastleth: Co zkusit nějaký sitemap generator na ten starý web - něco z code.google.com/archive/p/sitemap-generators/wikis/SitemapGenerators.wiki
	Kajman Profil	#5 · Zasláno: 12. 11. 2019, 09:28:51 Odpovědět Citovat andynewcastleth: Pokud jsou všechny url doklikatelné, tak zadáte úvodní stránku, povolíte rekurzi pro danou doménu a wget/httrack bude procházet daný web. Pokud je nějaká část, do které se odkazy nestane, tak ji nenajde (tam je lepší ten http log - ale můžete např. najít seznam adres z http logu a zkombinovat s rekurzivním stahováním). Prostě wget i httrack jsou crawlery bežící lokálně.
	Kcko Profil	#6 · Zasláno: 12. 11. 2019, 09:48:42 Odpovědět Citovat XENU
	andynewcastleth Profil	#7 · Zasláno: 12. 11. 2019, 10:00:23 Odpovědět Citovat Kcko: Ano. Ano. Ano. Já jsem na něj úplně zapomněl. Ale toto je přesně co jsem hledal. S tímto si pamatuji jsem měl velmi dobré zkušenosti!
		Časová prodleva: 6 let

Vaše odpověď

Mohlo by se hodit