Autor Zpráva
worda
Profil *
Dobrý večer,

chtěl bych se pouze ujistit, zda je tento zápis robots.txt správně:
User-agent: *
Disallow: /

User-agent: Googlebot
User-agent: Jyxobot
User-agent: Seznambot
User-agent: Bingbot
User-agent: MSNbot
User-agent: Bingbot
User-agent: SklikBot
Allow: /
Disallow: /admin/

Tzn zákaz přístupu na stránky.
a množině botů google, jyxo, seznam atd. povolit přístup na stránky a zároven zakázat přístup do složky admin.

Děkuji

Moderátor Chamurappi: Titulek „robotx.txt“ nevystihoval podstatu dotazu. Příště zkus prosím vymyslet lepší.
LudekBrno
Profil
worda:

nikoliv, správně to není. Sice tam není žádná chyba, která by blokovala práci botů, ale je tam hromada zbytečnostní.

1) je přece zbytečné vyjmenovávat boty, kteří nemají chodit do složky admin, protože předpokládám, že tam nemá chodit žádný, takže stačí ta hvězdička.

2) blokovat přístup do složky admin obecně je spíš hloupost, protože do ní se stejně bez přihlašovacích údajů bot nedostane a také ten zápis zjednoduší práci případným hackerům, protože jim na stříbrném podnose naservíruje cestu do administrační části webu. Takže jediné co by tam mělo v tomto případě být, jsou první dva řádky. Všechno ostatní je přinejmenším zbytečné nebo spíš přímo kontraproduktivní. On totiž příkaz disallow nijak vstupu nebrání, pouze žádá, aby tam boti nevstupovali. To ale samozřejmě respektují jen slušní boti, ti neslušní na to kašlou.
Cody
Profil
Jak psal LudekBrno - je to zbytečně překombinované. Osobně bych to zjednodušil na:

User-agent: *
   
Disallow: 
   
Sitemap: http://www.domena.cz/sitemap.xml

Jinak těžko říct, co je správně, když nevíme čeho jste tímto konkrétním robots.txt dosáhnout.
worda
Profil *
Já myslel, že to funguje takto:


tento zápis zakáže přístup všem robotům na celý web
User-agent: *
Disallow: /

tento zápis následně povolí přístup množině robotů na web ale zakáže do složky admin
User-agent: Googlebot
User-agent: Jyxobot
User-agent: Seznambot
User-agent: Bingbot
User-agent: MSNbot
User-agent: Bingbot
User-agent: SklikBot
Allow: /
Disallow: /admin/
weroro
Profil
Pokiaľ správne chápem logiku robotov, tak robot ti do priečinka /admin/ nebude liezť ak na ten priečinok resp. na nejaký súbor v tom priečinku neodkážeš z hlavného webu. Robot netuší, že taký priečinok existuje, pokiaľ mu o tom nepovieš.
LudekBrno
Profil
worda:
Ano," disallow: /" zakže všechno. Cody ale napsal jen "disallow:", což nezakáže nic.

Nicméně ovšem stále platí, že ve tvém případě neexistuje rozumný důvod něco zakazovat, protože předpokládám, že přístup do "admin" je chráněný heslem, takže se tam stejně žádný bot nedostane. Nemluvě o tom, že pokud na veřejné části webu není odkaz do administrátorské části, tak o složce "admin" boti nebudou ani vědět. Snad s výjimkou google bota, který se o ní může dozvědět jednoduše tak, že použiješ googlácký prohlížeč. A už vůbec není důvod vypisovat vlastní seznam povolených botů, protože ti neslušní, které bys nechtěl, stejně nebudou tvůj zápis respektovat. Uvědom si, že příkazy v robots.txt nejsou žádnou ochranou, je to čistě jako bys řekl botům "chovejte se prosím takto...", ale škodliví boti vůbec robots.txt nejspíš číst nebudou, maximálně si z něj vyčtou přístupovou cestu do administrace a odešlou ji svému tvůrci hackerovi :-)

Takže tvůj zápis je skutečně překombinovaný a jedinou rozumnou variantou je codyho návrh s tím, že si případně upravíš zápis odkazu na sitemap.


weroro:

to dlouho bývala pravda 100%, ale dnes už je to s výjimkou google, protože ten se o existenci jakékoliv URL dozví už jen tím, že ji zadáš do adresního řádku googláckého prohlížeče (Chrome). Takže pokud kolega používá ke správě webu Chrome, tak už google o složce admin ví. Ničemu to ale nevadí, protože bot se stejně do chráněné části nedostane. Kdybych to bral ale do důsledku, tak v Chrome může mít uložené přihlašovací údaje, které Chrome samozřejmě také posílá do google z důvodu synchronizace a teoreticky kdyby chtěl, může i do chráněné části :-) Ale to předpokládám google zatím nedělá, snad jen v případě, že požádá NSA :-)
Erik Webr
Profil
LudekBrno:
ale dnes už je to s výjimkou google, protože ten se o existenci jakékoliv URL dozví už jen tím, že ji zadáš do adresního řádku googláckého prohlížeče (Chrome)

To myslím Cody nedávno vyvrátil: http://blog.bloxxter.cz/neposlouchejte-nedouky-z-lupy-test-indexace-google-chrome/

EDIT: je pravda, že Cody tam řeší indexaci, nikoliv povědomí o stránce...
worda
Profil *
Dobře, děkuji za vaše poznatky.
LudekBrno
Profil
Erik Webr:
No právě, taky netvrdím, že to znamená indexaci. Jen že už neplatí dřívější jistota, že pokud na veřejném internetu neexistuje na nějaké URL odkaz, nemají se o URL vyhledávače jak dozvědět. Nemluvě o tom, že v případě složky "admin" indexace nehrozí, protože se do ní boti bez přihlašovacích údajů nedostanou.
Chamurappi
Profil
Reaguji na wordu:
tento zápis následně povolí přístup množině robotů
Proč chceš povolovat vstup jen malé množině robotů? Jaký to má smysl? Co máš třeba proti robotovi z webarchivu?

Skoro bych řekl, že robots.txt nepotřebuješ vůbec.


Reaguji na Erika Webra:
Mně Google zaindexoval úvodní (a zároveň jedinou) stránku subdomény, na kterou nevedl žádný odkaz. Vůbec nevím, jaká přesně uběhla doba mezi několikerým navštívením v Chromu a zaindexováním, nevyráběl jsem ji za účelem otestování tohoto. Buď jsem na ní opravdu někde odkázal (někdy dřív, než jsem ji založil), nebo jí prásknul Chrome. Nepovažuji se za nedouka a ta druhá možnost mi nepřipadá nesmyslná, ovšem nenašel jsem si čas k tomu, abych ji blíže otestoval. Codyho pokus má jiné vstupní podmínky.


Reaguji na LudkaBrno:
v případě složky "admin" indexace nehrozí, protože se do ní boti bez přihlašovacích údajů nedostanou
Teoreticky i kdyby se přihlásit dokázali, těžko pak budou ve výsledcích hledání ukazovat adresu a u ní návod na přihlášení :-)
joe
Profil
K čemu robots.txt?
Cody
Profil
joe:
K čemu robots.txt?

Robots.txt slouží k zákazu/povolení indexace částí či celého webu vyhledávači.

Chamurappi:
Nepovažuji se za nedouka a ta druhá možnost mi nepřipadá nesmyslná, ovšem nenašel jsem si čas k tomu, abych ji blíže otestoval.

Mě to smysl nedává. To, že ty data Google má, neznamená, že je používá pro svůj fulltext. Jinými slovy, budu rád, když prokážeš, že se mýlím. Nenašel jsem ani podobnou informaci potvrzenou ze zahraničí, takže pokud někdo neprokáže opak podržím si svůj názor, že to takhle nefunguje.
joe
Profil
Cody:
... takže pokud někdo neprokáže opak podržím si svůj názor, že to takhle nefunguje.
Klidně bych si troufal říct, že to tak funguje. Prohlížeč může sledovat aktivitu uživatele a kdo ví, co všechno odesílá a pokud narazí na nějakou stránku, obsahově dobrou stránku, proč by ji nemohl zařadit do výsledků vyhledávání, když je na internetu, ale nevede na ni odkaz?

Robots.txt slouží k zákazu/povolení indexace
:-) Ta otázka byla myšlena v trochu jiném smyslu, ale musím poděkovat, protože třeba někdo právě tady najde na podobnou otázku odpověď. Osobně bych se tomuto souboru z bezpečnostních důvodů vyhnul, případnému útočníkovi tak dáváme k dispozici seznam relativně zranitelných adres přímo pod nos. A pokud chci indexovat všechno, pomůže mi snad robots.txt v něčem? Nikoliv.
Chamurappi
Profil
Reaguji na Codyho:
Robots.txt slouží k zákazu/povolení indexace částí či celého webu vyhledávači.
Nejen vyhledávači.

To, že ty data Google má, neznamená, že je používá pro svůj fulltext.
To, že si nedouci myslí, že je používá, neznamená, že je nepoužívá. Pokud je na všech ostatních subdoménách pod stejnou doménou druhého řádu zajímavý obsah, lze předpokládat, že zajímavá bude i ta nově vzniknuvší subdoména. Proč čekat na odkaz? Proč by Google neměl dostupná data používat pro fulltext? Na jeho místě bych je paušálně nevnímal jako úplně bezcenná, pokud by bylo možné z nich odfiltrovat smetí.

Jinými slovy, budu rád, když prokážeš, že se mýlím.
Já budu rád, když prokážeš, že mám pravdu :-) … a samozřejmě i když prokážeš, že se pletu. Stejnou zkušenost, jako mám, popisuje i jakýsi Martin S. v komentářích pod tvým článkem. Chtěl jsi vyvracet mýtus, hurá do toho. Já si zatím skálopevně myslím, že vlastně nevím, jak to ve skutečnosti je. Chtěl bych se to dozvědět, ale nemám chuť tvořit SEO experimenty.
LudekBrno
Profil
Cody:
To, že ty data Google má, neznamená, že je používá pro svůj fulltext.

Je to čistě můj názor, ale řek bychl, že nemusí být zcela vyloučeno, aby když se google skrze Chrome dozví o existenci nového velmi informačně bohatého webu v málo konkurenčním oboru, že jej může zaindexovat a nabízet ve fulltextu i kdyby na něj ještě nevedl odnikud žádný odkaz. Proč vlastně ne? Pokud si myslí, že některým hledajícím může být web užitečný, tak by ho mohl i tak nabídnout. Neexistence odkazů na web ještě nemusí znamenat, že není užitečný. Ale jak říkám, je to jen můj názor.

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: