Autor Zpráva
Školník
Profil
Ahoj, mam podezření, že seznambot ignoruje robots.txt s tímto zněním:

User-agent: *
Disallow: /

A navzdory tomuto zápisu web indexuje a zařazuje do vyhledávání. Trochu jsem tu hledal, ale nic. Pokud tomu tak je, existuje nějaké řešení, jak zakázat seznambotovi přístup? Díky za informace.
Plaváček
Profil
Školník

Pokud vím a mám vyzkoušeno, pak tento zápis seznambot respektuje. Většinou.

Ostatně, zde máš oficiální info: http://fulltext.seznam.cz/url.py/infoScreen
Školník
Profil
Plaváček Já jsem teď z google analytics zjistil, že mi i přes robots.txt přicházejí lidi na web ze seznamu. Je to doména třetího řádu a robots.txt je v rootu té domény. Google neindexuje nic, seznam ano. Docela mě to šokovalo a potřeboval bych to vyřešit..

Co znamená to "většinou"..? :-)

edit: Já to info četl, nepídím se po oficiálních stanoviskách. A Juhů na jakpsatweb píše "Někteří novější roboti prý ignorují robots.txt (syčáci :-) nebo jej interpretují nepřesně."
Plaváček
Profil
Školník

To "většinou" znamená, a vymstilo se to mému kolegovi, že v okamžiku, kdy na web, jehož indexace je zakázána pomocí robots.txt, vede jeden jediný zpětný odkaz, který seznambot vyčenichá, pak takto zakázaný web zařadí do indexu a registruje ho. Stalo se léta páně roku minulého. Může to být mrzuté.
Plaváček
Profil
Školník

nepídím se po oficiálních stanoviskách


Bohužel, pokud se týká problematiky vyhledávačů, jsou oficiální stanoviska jediné, čemu se dá jakžtakž věřit.
Školník
Profil
Plaváček Už mi svitlo, vymstilo se to i mě. Na web vedly dva odkazy ze stránek, na které určitě chodí také robot seznamu. I když jsem je už nechal odstranit (ty odkazy;), indexuje pořád. Nojo, takže příčina je už na světě, existuje i nějaké "co s tím"? Přijde mi to jako tak trochu zásadní informace, to by někde mohlo být napsané...
Plaváček
Profil
Školník

No, to už je asi spíš otázka na Yuhůa. Ale možná by místo odstranění pomohla úprava těch nešťastných odkazů na neexistující stránky (s kódem 404), takové seznambot poměrně promptně zahazuje.
Marek Prokop
Profil
Interpretace Robots exclusion protokolu není zcela jednotná. Podle mého názoru však má být zákaz v robots.txt interpretován tak, že robot zakázané stránky nestahuje, nikoli tak, že je nesmí mít ve svém indexu nebo ve výsledcích vyhledávání.

Pokud vám není jasné, jak může mít vyhledavač určitou stránku ve výsledcích vyhledávání, aniž by ji stáhoval, může to mít minimálně dva důvody:

1) Zná na ni odkazy od jinud a tyto odkazy mu stačí k tomu, aby ji dokázal zaindexovat i bez stažení.

2) Stáhl si ji již dříve, dokud tomu zákaz v robotx.txt nebránil.

Google určitě postupuje v souladu s touto interpretací. Jak se chová Seznam, přesně nevím, ale předpokládám, že dost podobně nebo stejně.
habendorf
Profil
Plaváček: Nebyl jsem ten kolega čirou náhodou já? :o))
Kajman_
Profil *
Určitě seznam tuhle variantu porušuje... mám výše uvedený zápis v robots.txt na jedné doméně přes rok a v indexu má seznam stránku, co tam přibyla někdy v září.

Na webech, kde by mi tohle ingorování vadilo hodně, dávám

User-agent: *
Disallow: /

User-agent: SeznamBot
Disallow: /

Což už asi neignoruje. Kdyby se takhle choval každý robot, tak to robots.txt nemá ani žádný smysl.
habendorf
Profil
BTW http://diskuse.jakpsatweb.cz/index.php?action=vthread&topic=31939&foru m=13&page=-1
Školník
Profil
Plaváček Děkuju za rady, díky :-)
habendorf Zjistil jsi něco bližšího, jestli Tvůj / Kajmanův_ zápis neignoruje a lze ho bezpečně použít? Vyřadí na základě toho web z fulltextu, nebo ne?
habendorf
Profil
Školník: Nakonec jsem vyčetl cosi o otazníku za lomítkem, použil jsem radši obě možnosti, takže:

User-agent: SeznamBot
Disallow: /

User-agent: SeznamBot
Disallow: /?

a u citlivějších věcí mám http autentifikaci.
Toto téma je uzamčeno. Odpověď nelze zaslat.

0