Autor Zpráva
ruprecht
Profil *
Ahoj,

nevím si rady s následujícím. Chci si přes Webmastertools vložit Sitemap, bohužel to není možné, hlásí mně to tuto chybu:

"Při pokusu o přístup k vašemu souboru Sitemap došlo k chybě. Zkontrolujte prosím, zda soubor Sitemap odpovídá našim pokynům a zda jej lze otevřít ve vámi uvedeném umístění, a poté požadavek odešlete znovu."

"Adresa URL omezená souborem robots.txt"

Při testování souboru robots.txt mi Webmastertools ukazuje, že adresa nazev-domeny.eu/sitemap.xml je pro roboty přístupná. Používám stejný soubor jako na jiných doménách, kde mi vše funguje bez problémů:

Sitemap: http://nazev-domeny.eu/sitemap.xml
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/maintanence.php
Disallow: /wp-content/db-error.php
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/languages/
Disallow: /wp-content/upgrade/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/

Bádám nad tím už dost dlouho a nevím, kde by mohl být problém... Poradíte?
jefitto44
Profil
No však ti píše, že robots.txt bráni tej stránky, aby ti vošla do súboru sitemap.xml

Takže si dočasne premenuj súbor napr. na robo.txt a pôjde ti to, keď spravíš tú sitemap, tak si to opäť premenuješ na robots.txt
grimword
Profil
jefitto44:


Ale BOT prochází robot.txt při každém přístupu na stránku. Takže se bude moci dostat k Sitemap jen tak dlouho, dokud opět nezmění robots.txt.


Takže ať sem pošle robots.txt a ten si opraví.
nemeja
Profil
Zkus dát sitemap do allow
ruprecht
Profil *
Každopádně nejsem žádnej odborník. Nakonec jsem smazal:

Disallow: /*?

a funguje to. Jen nevím, jestli jsem neudělal zase nějakou kravinu...
LudekBrno
Profil
ruprecht:
Ono hlavně by bylo nejlepší smazat všechny ty disallow, jsou tam naprosto k ničemu, stejně jako poslední řádek allow. Čím víc tam toho napíšeš, tím větší je pravděpodobnost chyby. Nevím, co tím milionem disallowů vlastně chceš docílit?
Cody
Profil
Podle mě nejjednodušší nastavení pro weby na Wordpressu je:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.domena.cz/sitemap.xml
ruprecht
Profil *
[#6] LudekBrno

Jak jsem psal, nejsem žádnej odborník. Tohle byl vzor souboru robots.txt, který jsem kdysi okopíroval z nějaké diskuze jako tip na dobré zabezpečení stránek. Rád si nechám poradit.


Samozřejmě chci, aby byly stránky pro roboty přístupné, proto je dělám.

[#7] Cody

Využíváš to k plné spokojenosti?


Zkusil jsem to podle tebe a Webmasters mi hlásí tutéž chybu, kterou jsem zmiňoval v úvodu...
Cody
Profil
ruprecht:
Mě to funguje skvěle. Možná budeš mít problém jinde.
LudekBrno
Profil
ruprecht:

To bohužel nebyl vůbec dobrý zdroj informací. Robots.txt totiž není naprosto žádné zabezpečení, nikdy ani tak nebyl myšlen. Robots.txt je vlastně jen taková zdvořilá žádost, jejímž prostřednictvím prosíš roboty, aby nečetly určité složky nebo soubory. Nijak jim v tom ale samozžejmě nebrání. Výsledek je tudíž zcela opačný, a to zhoršení bezpečnosti. Ty příkazy v robots.txt totiž respektují pouze slušné roboty (vyhledávače), od kterých žádné nebezpečí nehrozí. Naopak ty neslušné, jejichž návštěvy jsou nežádoucí, budou robots.txt v klidu ignorovat a naopak jim vlastně předkládáš seznam potenciálně citlivých informací, o kterých by jinak vůbec nevěděly! Takže pokud se na tvůj web zaměří nějaký útočník, nabízíš mu na stříbrném podnose kompletní strukturu složek tvého webu a on bude mít mnohem méně práce se zjišťováním, kam se začít lámat! Druhým důvodem, proč tam většinu těch disallovů není potřeba mít je to, že na většinu z nich neexistují ve veřejné tvého části webu odkazy a roboty by o nich tedy vůbec nevěděly. A posledním důvodem je to, že v daných složkách nejsou žádné indexovatelné informace a užitečné roboty tak samy o sobě nebudou mít žádnou potřebu tam chodit. Takže disallow má smysl dát jen na stránky, ke kterým vede na veřejné části webu odkaz a ty přitom nechceš, aby je roboty indexovaly. Typický příklad jsou například obchodní podmínky, které asi není žádoucí nabízet lidem ve vyhledávačích. Nebo další použití, pokud máš na webu vytvořeny pomocí Rewrite tzv. "hezké URL", tak obvykle současně fungují i původní URL s otazníky, ID a podobně a je žádoucí tyto URL v robots.txt zablokovat, aby vyhledávače procházely jen ty "hezké URL" a nevznikaly tak duplicity. Na to všechno by ti měl stačit 1-2 řádky disallow.
jenikkozak
Profil
LudekBrno:
Nebo další použití, pokud máš na webu vytvořeny pomocí Rewrite tzv. "hezké URL", tak obvykle současně fungují i původní URL s otazníky, ID a podobně a je žádoucí tyto URL v robots.txt zablokovat
Na to se soubor robots.txt moc nehodí, protože web přijde o význam zpětných odkazů, které vedou na původní URL, a ve statistikách a logách se záznamy duplikují. Lépe je zvolit přesměrování.
ruprecht
Profil *
Všem děkuji za názory. Nyní mi to už od Codyho funguje a budu tedy používat tuto jednoduchou variantu. Co však nechápu, že i když jsem všechno měl stejně, tak co nefungovalo před pár dny, nyní běží. Již mi to chybu ve Webmasters tools nehlásí. Je možné, že i Google má své dny? :-)
LudekBrno
Profil
ruprecht:
On hlavně Google nečte robots.txt každý den. Takžd to chvíli trvá, než se změna projeví.
ruprecht
Profil *
[#13] LudekBrno

Chybu mi to hlásilo už když jsem odesílal sitemap k testu, nikoliv, že jsem to zjistil zpětně. Když jsem to samé prubnul po 2 dnech, tedy zaslat sitemap k testu, bylo vše v pořádku....

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: