Autor | Zpráva | ||
---|---|---|---|
Školník Profil |
#1 · Zasláno: 12. 2. 2007, 18:43:32
Ahoj, mam podezření, že seznambot ignoruje robots.txt s tímto zněním:
User-agent: * Disallow: / A navzdory tomuto zápisu web indexuje a zařazuje do vyhledávání. Trochu jsem tu hledal, ale nic. Pokud tomu tak je, existuje nějaké řešení, jak zakázat seznambotovi přístup? Díky za informace. |
||
Plaváček Profil |
#2 · Zasláno: 12. 2. 2007, 19:11:41 · Upravil/a: Plaváček
Školník
Pokud vím a mám vyzkoušeno, pak tento zápis seznambot respektuje. Většinou. Ostatně, zde máš oficiální info: http://fulltext.seznam.cz/url.py/infoScreen |
||
Školník Profil |
#3 · Zasláno: 12. 2. 2007, 19:19:37 · Upravil/a: Školník
Plaváček Já jsem teď z google analytics zjistil, že mi i přes robots.txt přicházejí lidi na web ze seznamu. Je to doména třetího řádu a robots.txt je v rootu té domény. Google neindexuje nic, seznam ano. Docela mě to šokovalo a potřeboval bych to vyřešit..
Co znamená to "většinou"..? :-) edit: Já to info četl, nepídím se po oficiálních stanoviskách. A Juhů na jakpsatweb píše "Někteří novější roboti prý ignorují robots.txt (syčáci :-) nebo jej interpretují nepřesně." |
||
Plaváček Profil |
#4 · Zasláno: 12. 2. 2007, 19:22:27
Školník
To "většinou" znamená, a vymstilo se to mému kolegovi, že v okamžiku, kdy na web, jehož indexace je zakázána pomocí robots.txt, vede jeden jediný zpětný odkaz, který seznambot vyčenichá, pak takto zakázaný web zařadí do indexu a registruje ho. Stalo se léta páně roku minulého. Může to být mrzuté. |
||
Plaváček Profil |
#5 · Zasláno: 12. 2. 2007, 19:23:46
Školník
nepídím se po oficiálních stanoviskách Bohužel, pokud se týká problematiky vyhledávačů, jsou oficiální stanoviska jediné, čemu se dá jakžtakž věřit. |
||
Školník Profil |
#6 · Zasláno: 12. 2. 2007, 19:27:01
Plaváček Už mi svitlo, vymstilo se to i mě. Na web vedly dva odkazy ze stránek, na které určitě chodí také robot seznamu. I když jsem je už nechal odstranit (ty odkazy;), indexuje pořád. Nojo, takže příčina je už na světě, existuje i nějaké "co s tím"? Přijde mi to jako tak trochu zásadní informace, to by někde mohlo být napsané...
|
||
Plaváček Profil |
#7 · Zasláno: 12. 2. 2007, 19:29:41
Školník
No, to už je asi spíš otázka na Yuhůa. Ale možná by místo odstranění pomohla úprava těch nešťastných odkazů na neexistující stránky (s kódem 404), takové seznambot poměrně promptně zahazuje. |
||
Marek Prokop Profil |
#8 · Zasláno: 12. 2. 2007, 21:14:33
Interpretace Robots exclusion protokolu není zcela jednotná. Podle mého názoru však má být zákaz v robots.txt interpretován tak, že robot zakázané stránky nestahuje, nikoli tak, že je nesmí mít ve svém indexu nebo ve výsledcích vyhledávání.
Pokud vám není jasné, jak může mít vyhledavač určitou stránku ve výsledcích vyhledávání, aniž by ji stáhoval, může to mít minimálně dva důvody: 1) Zná na ni odkazy od jinud a tyto odkazy mu stačí k tomu, aby ji dokázal zaindexovat i bez stažení. 2) Stáhl si ji již dříve, dokud tomu zákaz v robotx.txt nebránil. Google určitě postupuje v souladu s touto interpretací. Jak se chová Seznam, přesně nevím, ale předpokládám, že dost podobně nebo stejně. |
||
habendorf Profil |
#9 · Zasláno: 12. 2. 2007, 22:19:17
Plaváček: Nebyl jsem ten kolega čirou náhodou já? :o))
|
||
Kajman_ Profil * |
#10 · Zasláno: 12. 2. 2007, 22:29:47
Určitě seznam tuhle variantu porušuje... mám výše uvedený zápis v robots.txt na jedné doméně přes rok a v indexu má seznam stránku, co tam přibyla někdy v září.
Na webech, kde by mi tohle ingorování vadilo hodně, dávám User-agent: * Disallow: / User-agent: SeznamBot Disallow: / Což už asi neignoruje. Kdyby se takhle choval každý robot, tak to robots.txt nemá ani žádný smysl. |
||
habendorf Profil |
#11 · Zasláno: 12. 2. 2007, 22:32:11
|
||
Školník Profil |
#12 · Zasláno: 12. 2. 2007, 22:36:39 · Upravil/a: Školník
Plaváček Děkuju za rady, díky :-)
habendorf Zjistil jsi něco bližšího, jestli Tvůj / Kajmanův_ zápis neignoruje a lze ho bezpečně použít? Vyřadí na základě toho web z fulltextu, nebo ne? |
||
habendorf Profil |
#13 · Zasláno: 12. 2. 2007, 22:46:16
Školník: Nakonec jsem vyčetl cosi o otazníku za lomítkem, použil jsem radši obě možnosti, takže:
User-agent: SeznamBot Disallow: / User-agent: SeznamBot Disallow: /? a u citlivějších věcí mám http autentifikaci. |
||
Časová prodleva: 17 let
|
Toto téma je uzamčeno. Odpověď nelze zaslat.
0