Diskuse JPW: Je tento zápis robots.txt správně?*

	Autor	Zpráva
	worda Profil *	#1 · Zasláno: 26. 9. 2013, 00:19:28 · Upravil/a: Moderátor (editace znemožněna) 27. 9. 2013, 15:41:17 Odpovědět Citovat Dobrý večer, chtěl bych se pouze ujistit, zda je tento zápis robots.txt správně: User-agent: * Disallow: / User-agent: Googlebot User-agent: Jyxobot User-agent: Seznambot User-agent: Bingbot User-agent: MSNbot User-agent: Bingbot User-agent: SklikBot Allow: / Disallow: /admin/ Tzn zákaz přístupu na stránky. a množině botů google, jyxo, seznam atd. povolit přístup na stránky a zároven zakázat přístup do složky admin. Děkuji Moderátor Chamurappi: Titulek „robotx.txt“ nevystihoval podstatu dotazu. Příště zkus prosím vymyslet lepší.
	LudekBrno Profil	#2 · Zasláno: 26. 9. 2013, 20:46:06 Odpovědět Citovat worda: nikoliv, správně to není. Sice tam není žádná chyba, která by blokovala práci botů, ale je tam hromada zbytečnostní. 1) je přece zbytečné vyjmenovávat boty, kteří nemají chodit do složky admin, protože předpokládám, že tam nemá chodit žádný, takže stačí ta hvězdička. 2) blokovat přístup do složky admin obecně je spíš hloupost, protože do ní se stejně bez přihlašovacích údajů bot nedostane a také ten zápis zjednoduší práci případným hackerům, protože jim na stříbrném podnose naservíruje cestu do administrační části webu. Takže jediné co by tam mělo v tomto případě být, jsou první dva řádky. Všechno ostatní je přinejmenším zbytečné nebo spíš přímo kontraproduktivní. On totiž příkaz disallow nijak vstupu nebrání, pouze žádá, aby tam boti nevstupovali. To ale samozřejmě respektují jen slušní boti, ti neslušní na to kašlou.
	Cody Profil	#3 · Zasláno: 26. 9. 2013, 21:25:34 Odpovědět Citovat Jak psal LudekBrno - je to zbytečně překombinované. Osobně bych to zjednodušil na: User-agent: * Disallow: Sitemap: http://www.domena.cz/sitemap.xml Jinak těžko říct, co je správně, když nevíme čeho jste tímto konkrétním robots.txt dosáhnout.
	worda Profil *	#4 · Zasláno: 26. 9. 2013, 23:48:46 Odpovědět Citovat Já myslel, že to funguje takto: tento zápis zakáže přístup všem robotům na celý web User-agent: * Disallow: / tento zápis následně povolí přístup množině robotů na web ale zakáže do složky admin User-agent: Googlebot User-agent: Jyxobot User-agent: Seznambot User-agent: Bingbot User-agent: MSNbot User-agent: Bingbot User-agent: SklikBot Allow: / Disallow: /admin/
	weroro Profil	#5 · Zasláno: 27. 9. 2013, 00:06:47 · Upravil/a: weroro o okamžik později Odpovědět Citovat Pokiaľ správne chápem logiku robotov, tak robot ti do priečinka /admin/ nebude liezť ak na ten priečinok resp. na nejaký súbor v tom priečinku neodkážeš z hlavného webu. Robot netuší, že taký priečinok existuje, pokiaľ mu o tom nepovieš.
	LudekBrno Profil	#6 · Zasláno: 27. 9. 2013, 09:16:14 · Upravil/a: LudekBrno Odpovědět Citovat worda: Ano," disallow: /" zakže všechno. Cody ale napsal jen "disallow:", což nezakáže nic. Nicméně ovšem stále platí, že ve tvém případě neexistuje rozumný důvod něco zakazovat, protože předpokládám, že přístup do "admin" je chráněný heslem, takže se tam stejně žádný bot nedostane. Nemluvě o tom, že pokud na veřejné části webu není odkaz do administrátorské části, tak o složce "admin" boti nebudou ani vědět. Snad s výjimkou google bota, který se o ní může dozvědět jednoduše tak, že použiješ googlácký prohlížeč. A už vůbec není důvod vypisovat vlastní seznam povolených botů, protože ti neslušní, které bys nechtěl, stejně nebudou tvůj zápis respektovat. Uvědom si, že příkazy v robots.txt nejsou žádnou ochranou, je to čistě jako bys řekl botům "chovejte se prosím takto...", ale škodliví boti vůbec robots.txt nejspíš číst nebudou, maximálně si z něj vyčtou přístupovou cestu do administrace a odešlou ji svému tvůrci hackerovi :-) Takže tvůj zápis je skutečně překombinovaný a jedinou rozumnou variantou je codyho návrh s tím, že si případně upravíš zápis odkazu na sitemap. weroro: to dlouho bývala pravda 100%, ale dnes už je to s výjimkou google, protože ten se o existenci jakékoliv URL dozví už jen tím, že ji zadáš do adresního řádku googláckého prohlížeče (Chrome). Takže pokud kolega používá ke správě webu Chrome, tak už google o složce admin ví. Ničemu to ale nevadí, protože bot se stejně do chráněné části nedostane. Kdybych to bral ale do důsledku, tak v Chrome může mít uložené přihlašovací údaje, které Chrome samozřejmě také posílá do google z důvodu synchronizace a teoreticky kdyby chtěl, může i do chráněné části :-) Ale to předpokládám google zatím nedělá, snad jen v případě, že požádá NSA :-)
	Erik Webr Profil	#7 · Zasláno: 27. 9. 2013, 10:19:09 · Upravil/a: Erik Webr o 7 minut později Odpovědět Citovat LudekBrno: „ale dnes už je to s výjimkou google, protože ten se o existenci jakékoliv URL dozví už jen tím, že ji zadáš do adresního řádku googláckého prohlížeče (Chrome)“ To myslím Cody nedávno vyvrátil: http://blog.bloxxter.cz/neposlouchejte-nedouky-z-lupy-test-indexace-google-chrome/ EDIT: je pravda, že Cody tam řeší indexaci, nikoliv povědomí o stránce...
	worda Profil *	#8 · Zasláno: 27. 9. 2013, 12:53:29 Odpovědět Citovat Dobře, děkuji za vaše poznatky.
	LudekBrno Profil	#9 · Zasláno: 27. 9. 2013, 13:21:16 · Upravil/a: LudekBrno o minutu později Odpovědět Citovat Erik Webr: No právě, taky netvrdím, že to znamená indexaci. Jen že už neplatí dřívější jistota, že pokud na veřejném internetu neexistuje na nějaké URL odkaz, nemají se o URL vyhledávače jak dozvědět. Nemluvě o tom, že v případě složky "admin" indexace nehrozí, protože se do ní boti bez přihlašovacích údajů nedostanou.
	Chamurappi Profil	#10 · Zasláno: 27. 9. 2013, 14:27:58 Odpovědět Citovat Reaguji na wordu: „tento zápis následně povolí přístup množině robotů“ Proč chceš povolovat vstup jen malé množině robotů? Jaký to má smysl? Co máš třeba proti robotovi z webarchivu? Skoro bych řekl, že `robots.txt` nepotřebuješ vůbec. Reaguji na Erika Webra: Mně Google zaindexoval úvodní (a zároveň jedinou) stránku subdomény, na kterou nevedl žádný odkaz. Vůbec nevím, jaká přesně uběhla doba mezi několikerým navštívením v Chromu a zaindexováním, nevyráběl jsem ji za účelem otestování tohoto. Buď jsem na ní opravdu někde odkázal (někdy dřív, než jsem ji založil), nebo jí prásknul Chrome. Nepovažuji se za nedouka a ta druhá možnost mi nepřipadá nesmyslná, ovšem nenašel jsem si čas k tomu, abych ji blíže otestoval. Codyho pokus má jiné vstupní podmínky. Reaguji na LudkaBrno: „v případě složky "admin" indexace nehrozí, protože se do ní boti bez přihlašovacích údajů nedostanou“ Teoreticky i kdyby se přihlásit dokázali, těžko pak budou ve výsledcích hledání ukazovat adresu a u ní návod na přihlášení :-)
	joe Profil	#11 · Zasláno: 27. 9. 2013, 15:38:45 Odpovědět Citovat K čemu `robots.txt`?
	Cody Profil	#12 · Zasláno: 27. 9. 2013, 21:42:38 Odpovědět Citovat joe: „K čemu robots.txt?“ Robots.txt slouží k zákazu/povolení indexace částí či celého webu vyhledávači. Chamurappi: „Nepovažuji se za nedouka a ta druhá možnost mi nepřipadá nesmyslná, ovšem nenašel jsem si čas k tomu, abych ji blíže otestoval.“ Mě to smysl nedává. To, že ty data Google má, neznamená, že je používá pro svůj fulltext. Jinými slovy, budu rád, když prokážeš, že se mýlím. Nenašel jsem ani podobnou informaci potvrzenou ze zahraničí, takže pokud někdo neprokáže opak podržím si svůj názor, že to takhle nefunguje.
	joe Profil	#13 · Zasláno: 28. 9. 2013, 00:27:02 Odpovědět Citovat Cody: „... takže pokud někdo neprokáže opak podržím si svůj názor, že to takhle nefunguje.“ Klidně bych si troufal říct, že to tak funguje. Prohlížeč může sledovat aktivitu uživatele a kdo ví, co všechno odesílá a pokud narazí na nějakou stránku, obsahově dobrou stránku, proč by ji nemohl zařadit do výsledků vyhledávání, když je na internetu, ale nevede na ni odkaz? „Robots.txt slouží k zákazu/povolení indexace“ :-) Ta otázka byla myšlena v trochu jiném smyslu, ale musím poděkovat, protože třeba někdo právě tady najde na podobnou otázku odpověď. Osobně bych se tomuto souboru z bezpečnostních důvodů vyhnul, případnému útočníkovi tak dáváme k dispozici seznam relativně zranitelných adres přímo pod nos. A pokud chci indexovat všechno, pomůže mi snad `robots.txt` v něčem? Nikoliv.
	Chamurappi Profil	#14 · Zasláno: 28. 9. 2013, 02:06:41 Odpovědět Citovat Reaguji na Codyho: „Robots.txt slouží k zákazu/povolení indexace částí či celého webu vyhledávači.“ Nejen vyhledávači. „To, že ty data Google má, neznamená, že je používá pro svůj fulltext.“ To, že si nedouci myslí, že je používá, neznamená, že je nepoužívá. Pokud je na všech ostatních subdoménách pod stejnou doménou druhého řádu zajímavý obsah, lze předpokládat, že zajímavá bude i ta nově vzniknuvší subdoména. Proč čekat na odkaz? Proč by Google neměl dostupná data používat pro fulltext? Na jeho místě bych je paušálně nevnímal jako úplně bezcenná, pokud by bylo možné z nich odfiltrovat smetí. „Jinými slovy, budu rád, když prokážeš, že se mýlím.“ Já budu rád, když prokážeš, že mám pravdu :-) … a samozřejmě i když prokážeš, že se pletu. Stejnou zkušenost, jako mám, popisuje i jakýsi Martin S. v komentářích pod tvým článkem. Chtěl jsi vyvracet mýtus, hurá do toho. Já si zatím skálopevně myslím, že vlastně nevím, jak to ve skutečnosti je. Chtěl bych se to dozvědět, ale nemám chuť tvořit SEO experimenty.
	LudekBrno Profil	#15 · Zasláno: 28. 9. 2013, 10:11:50 Odpovědět Citovat Cody: „To, že ty data Google má, neznamená, že je používá pro svůj fulltext.“ Je to čistě můj názor, ale řek bychl, že nemusí být zcela vyloučeno, aby když se google skrze Chrome dozví o existenci nového velmi informačně bohatého webu v málo konkurenčním oboru, že jej může zaindexovat a nabízet ve fulltextu i kdyby na něj ještě nevedl odnikud žádný odkaz. Proč vlastně ne? Pokud si myslí, že některým hledajícím může být web užitečný, tak by ho mohl i tak nabídnout. Neexistence odkazů na web ještě nemusí znamenat, že není užitečný. Ale jak říkám, je to jen můj názor.
		Časová prodleva: 12 let

Vaše odpověď

Mohlo by se hodit