Autor Zpráva
ng9
Profil
Zdravím,

potřeboal bych od vás poradit, jak správně nastavit robots.txt ... nikde jsem nenašel podrobnou specifikaci. Co ale vím je, že stačí napsat špatně jediný řádek a problém ja na světě.

Jde o to, že google webmasters generuje jako základní robots s tím, že vše je povoleno takto:
User-agent: *
Allow: /

Ovšem různé internetové checkery hlásí chybu s řádkem Allow: / a nejsem si jist, jestli to správně i chápe seznam, na podpoře mi na to neuměli přímo odpovědět a řekli, ať radši použiji "Disallow: "

Tkaže to bude vypadat takto:
User-agent: *
Disallow:

Pokud budu chtít nějaké adresy odfiltrovat, mám nechat jeden prádzný Disallow a pod něj vypsat všechny disallowy s konkrétními url nebo nahradit ten prázdný?
User-agent: *
Disallow:
Disallow: /rss.xml
(nebo právě tím rss.xml nahradit první prádzný disallow)

A další věcí je sitemap, nevím jestli se má vynechat prázdný řádek nebo sitemap nalepit k danému user-agentovi.
User-agent: *
Disallow:
Disallow: /rss.xml

Sitemap: http://adresa.tld/sitemap.xml
(nebo odstranit prázdný řádek?)

Díky moc všem za rady, budu rád jestli se podělíte s vlastním robots.txt kde máte nadefinovaná pravidla a víte, že to tak určitě funguje.

Checker od checkeru mi ukazuje něco jiného, co se jednou líbí google, seznamu nemusí, např. řádek s Allow zas neuměl yandex atp.

---

Ještě bych doplnil, že robots.txt se dá otestovat v google webmasters, tam se zdá vše ok ať to napíši různě, google to prostě "schroupne" ... problém mi dělá seznam, kde nemám možnost si to jakkoliv otestovat a mám dojem, že začíná poalu stránky vyřazovat .... původní nastavení bylo:
User-agent: *
Allow:
Sitemap: http://adresa.tld/sitemap.xml
(a poté jsem k allow doplnil lomítko, ale zdá se, že to seznam chápal jako "Disallow: /")

Děkuji moc za vysvětlení.
Str4wberry
Profil
Výchozí nastavení je „co není zakázáno, to je povoleno“. Tudíž psát prázdné „Disallow“ nebo „Allow“ s lomítkem postrádá smysl, přesněji řečeno to nic nedělá, ještě přesněji řečeno to dělá to samé, co prázdný nebo žádný robots.txt, tedy nechá roboty procházet celou stránku. Co se týče odkazu na mapu webu, tak ten se neváže ke skupině pravidel (user agent + povolená/zakázaná stránka), takže by mělo být jedno, kolik prázdných řádků použiješ.

Co se týče použití „Allow“, tak se kontrolovacím programům nemusí líbit, protože byl zaveden později a neznají ho.
ludekbrno
Profil *
ng9:

Nejlepší by bylo, kdybys napsal co ze struktury webu chceš zakázat. Klidně tam napiš fiktivní URL, ale aby ta struktura seděla.
ng9
Profil
Str4wberry:

Děkuji ti za reakci. Šlo mi o to jak se zkrátka roboti k takovému souboru chovají, jestli např. když parsují strukturu a najdou chybu tak zahazují celý robots.txt, nebo berou v potaz posloupnost až k řádku kde je chyba a zbytek zahodí nebo zkrátka jen zahodí chybný řádek.

Napadlo mne, pokud je např. nalezen robots.txt, uveden user-agent pak se očekává řádek s Disallow, jeden z checkerů mi hlásil chybu, že takový řádek očekává, těžko říci jak se k tomu zachová seznam robot, jestli to schroupne a jde dál nebo ukončí crawlování.

Navíc jak píšeš, Allow se zavedlo později a ani na podpoře seznamu mi nedokázali odpovědět jak se k takovému příkazu fulltext robot chová. Zkrátka na to, jak důležitou roli takový soubor hraje mi přijde nedostatečná dokumentace, ať už ze strany kdo robots.txt vynalezl tak ze strany fulltextových robotů a jejich podpory.

Abych to ale shrnul; k věci.

Pokud budu chtít...

vše povolit, pak zápis bude následující
User-agent: *
Disallow:

Sitemap: http://domena.tld/sitemap.xml
Sitemap: http://domena.tld/sitemap2.xml

a pokud budu chtít nějakou položku zamítnout, tak takto:
User-agent: *
Disallow: /rss.xml
Disallow: /rss2.xml

Sitemap: http://domena.tld/sitemap.xml
Sitemap: http://domena.tld/sitemap2.xml

Můžete mi to prosím potvrdit, zda je to správně? Pro google zdá se ano, u seznamu si nejsem jistý a nerad bych čekal "co se bude dít" :).

---

ještě bych dodal, že jsem měl párkrát problém už jen s tím, že na konci takového souboru byl jen prázdný řádek.
Marek Prokop
Profil
Oba příklady ve [#4] jsou správně. Jinak standard je definován na http://www.robotstxt.org/ a co v něm není, je třeba prověřit u jednotlivých vyhledavačů. Pro Seznam je to zde: http://napoveda.seznam.cz/cz/hledani-fulltext-komunikace-s-vyhledavaci-robots-txt.html#robots_txtSeznam
ng9
Profil
Marek Prokop:

Děkuji ti, nápovědu seznamu a robotstxt.org jsem pročítal, ale hlavou mi vrtalo několik kombinací, na které zkrátka odpovědi nenacházím. Jako např. zda má vliv mezera za dvojtečkou nebo odřádkování těch sitemap, nebo se měly nalepit ke konkrétním user-agentovi (jak napsal Str4wberry tak zřejmně ne), ale zkrátka nikde není konkrétně napsáno - to že google sitemapu vidí neznamená, že ji i seznam musí ze zápisu schroupnout.

Asi se vám tu zdá, že zbytečně řeším hlouposti. Ale jak jsem psal, původně jsem používal ke vší spokojenosti "Allow:", vše fungovalo dobře až na yandex který neindexoval, poté jsem přepsal na "Allow: /" a od té doby se zdá začaly stránky odpodávat z indexu u seznamu (možná se mýlím, ale časově to vychází). Člověk pak začne asi až moc řešit a překombinovávat :). A chtěl jsem si v tomhle udělat jednou provždy jasno.

Takže bych vám rád poděkoval za příspěvky, soubory jdu upravit a doufám, že už vše bude fungovat jako dřív.
Str4wberry
Profil
Jak jsem už psal, proč tam píšeš ty zbytečné „User-agent“, „Disallow“ a „Allow“, když chceš celý web indexovat? Je to výchozí stav. Smysl má tam psát, co indexovat nechceš.
ng9
Profil
Str4wberry:

Ne na všech webech, na některých chci celý web, někde zas něco zamítnout - proto jsem se ptal na oba případy. Nebyl jsem si jist jestli ty sitemapy jsou samostatnou jednotkou nebo se vážou na některý příkaz, ale to jsme zde již vyřešili.

Nevím jestli by na druhou stranu bylo také správně prázdný robots.txt a na prvním řádku Sitemap: ...

A testovat se mi to moc nechce, chtěl bych se držet osvědčených postupů :).
Str4wberry
Profil
Jako že by si robot přeložil „Sitemap:“ nebo prázdný robots.txt na „Disallow: /“? Posuď sám, přijde ti to reálné?

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: