Diskuse JPW: Seznam ignoruje robots.txt?

	Autor	Zpráva
	habendorf Profil	#1 · Zasláno: 8. 8. 2006, 18:31:05 Odpovědět Citovat Seznam prohlašuje, že respektuje robots.txt. Mě však zcela prokazatelně zaregistroval minimálně jednu stránku, kterou neměl. Je to velmi nepříjemné, jde o úložiště komerčních projektů pro klienty. Ano, mohl bych použít http autentifikaci (asi mi nic jiného nezbyde), ale prostě jsem seznamu věřil. Můj robots.txt vypadá velmi prostě: User-agent: * Disallow: / V tom by snad chyba být neměla (je umístěn v rootu webu). Zajímalo by mě, zda je možné stránku z fulltextu nějak vyřadit. Na http://napoveda.seznam.cz/cz/indexovani.html se píše: Odstraňování stránek z databáze fulltextu probíhá automaticky. Konkrétní stránka je robotem z výsledků vyhledávání odstraněna, pokud robot při její návštěvě zjistí, že neexistuje (HTTP odpověď 404 nebo 410), je přesměrována na jinou stránku (HTTP odpověď 301 nebo 302), má zakázanou indexaci v robots.txt nebo meta tagem robots (<meta name="robots" content="noindex">), nebo pokud automatické indexaci brání jiná překážka (nedostupnost, HTTP odpověď 403 apod.). Pro odstranění stránky z indexu tedy stačí jeden z těchto stavů zařídit a počkat, než robot stránku navštíví. Ovšem to není to co chci, já tam ty stránky chci mít. Jen by se mi líbilo, kdyby Seznam respektoval to, o čem říká že to respektuje. Ví někdo v čem by mohl být problém? Yuhů, Mistr: Můžeme to prosím nějak vyřešit a web z fulltextu vymazat?
	Martin Kuželka Profil	#2 · Zasláno: 8. 8. 2006, 19:25:53 Odpovědět Citovat Myslím, že něco podobného se už řešilo v konferenci seo.nawebu. Snad je to ještě aktuální.
	habendorf Profil	#3 · Zasláno: 8. 8. 2006, 19:39:13 Odpovědět Citovat Martine, převelice děkuji, to by vysvětlovalo vše. Ovšem pokud je na http://napoveda.seznam.cz/cz/indexovani.html výslovně uvedeno "Použijte standard robots.txt ", považuji toto jednání Seznamu za ... ehm ... přinejmenším podivné. Kdybych chtěl použít řešení navrhované tamtéž , jak by měl vypadat správně robots.txt? Takto User-agent: * Disallow: /? nebo pro jistotu User-agent: * Disallow: / Disallow: /? nebo úplně pro jistotu User-agent: * Disallow: / User-agent: SeznamBot Disallow: / Jde mi o úplné zakázání pro všechny roboty plus tedy ještě extra pro seznam. Co bys prosím tě doporučil?
	Martin Kuželka Profil	#4 · Zasláno: 8. 8. 2006, 19:52:56 · Upravil/a: Martin Kuželka Odpovědět Citovat Ano, toto chování SeznamBota se mi také zdá dost divné. A co bych doporučil? Řekl bych, že možnosti 2 a 3 by měly být obě ok, ale ruku do ohně bych za to nedal ;-) A u možnosti 1 si nejsem jistej..
	habendorf Profil	#5 · Zasláno: 8. 8. 2006, 19:56:35 Odpovědět Citovat Martine ještě jednou díky, zkusím trojku.
	Marek Prokop Profil	#6 · Zasláno: 8. 8. 2006, 19:58:26 Odpovědět Citovat Habendorfe, je možné (pravděpodobné), že se Seznam skutečně chová (choval) nekorektně. Rozhodně bych se to však nesnažil napravit nějakým lepším souborem robots.txt, protože základní chyba je u vás. Soubory, které se nemají dostat na veřejnost musí být chráněny heslem. Standard robots.txt nevznikl k ochraně důvěrných informací. Dokonce právě naopak únik důvěrných informací usnadňuje. Vznikl k ochraně serverů před nechtěnou zátěží a v tomto duchu ho většina slušných robotů bere. To znamená, že občas "zákaz" v jednotlivých případech poruší, např. v důsledku kešování souboru robots.txt apod.
	Martin Kuželka Profil	#7 · Zasláno: 8. 8. 2006, 20:04:52 Odpovědět Citovat Marku, co je ale podle vás v případě, kdy se nejedná o tak důvěrné informace, lepší - zatěžovat klienta nutností přihlásit se nebo použít, jak vy sám píšete, "lepší soubor robots.txt"? Omlouvám se za OT.
	habendorf Profil	#8 · Zasláno: 8. 8. 2006, 20:12:21 Odpovědět Citovat Martin Kuželka: Ano, to je přesně ono. Ony to zas tak naprosto supertajné informace nejsou. Jde jen o to, aby moje šablony pro klienta nevyskakovaly na Seznamu výše, než konečný web :o) Lépe řečeno aby tam nevyskakovaly vůbec. Proto jsem myslel, že stačí URL (kterou znám jen já a klient) plus robots.txt. Mě totiž nejde o to, aby stránky byly bůhvíjak chráněné, jen aby je neindexovali roboti. Marek Prokop: Děkuji za názor, http autentifikace by to asi řešila nejlépe, to je pravda. Ale připadá mi to až příliš silné řešení. A navíc udržovat různá hesla pro různé klienty na různých URL, ach ou ... do toho se mi dvakrát nechce.
	zimmi Profil	#9 · Zasláno: 8. 8. 2006, 20:16:19 Odpovědět Citovat habendorf: Pokud adresu znáš jen ty a klient a pokud na ni nikde není odkaz, neměla by se do vyhledávání vůbec dostat, ne? Nebo se mýlím?
	Marek Prokop Profil	#10 · Zasláno: 9. 8. 2006, 00:03:12 Odpovědět Citovat "Proto jsem myslel, že stačí URL (kterou znám jen já a klient) plus robots.txt." No jo, jenže v takovém případě to původně neznámé URL v robtos.txt zvěřejníte pro celý svět :-) Robots.txt se na to opravdu nehodí, vážně.
	llook Profil	#11 · Zasláno: 9. 8. 2006, 07:36:07 Odpovědět Citovat Napadá mě jedno řešení, které ale asi nenadchne příznivce norem, standardů a buzerace. Co takhle posílat jiný stavový kód HTTP? Nebo je nějaký prohlížeč, který stránku s kódem 404 nezobrazí a vyhledávač, který ji zaindexuje? No a nebo zkus robotí metatagy, ty by snad taky mohli zabrat...
	Martin Kuželka Profil	#12 · Zasláno: 9. 8. 2006, 09:53:47 Odpovědět Citovat Marku, v tomto konkrétním případě žádné neznámé URL v robots.txt nezveřejníte, protože ten zákaz indexování platí pro celý web.
	habendorf Profil	#13 · Zasláno: 9. 8. 2006, 11:40:07 Odpovědět Citovat No jo, jenže v takovém případě to původně neznámé URL v robtos.txt zvěřejníte pro celý svět :-) Přesně jak říká Martin Kuželka, přes User-agent: * Disallow: / toho moc nezveřejním :o)
		Časová prodleva: 19 let

Toto téma je uzamčeno. Odpověď nelze zaslat.