Autor Zpráva
Kapten
Profil *
Ahoj, zrovna jsem nastudoval význam robots.txt, ale nějak mi není jasné proč třeba lidé tam zakazují např. vstup do adresáře:

User-agent: *
Disallow: /popelnice/

Normálně ten web je zaměřený na úplně něco jiného, tak vůbec nevím, proč tam suší popelnice. Až mě to spíše rozesmálo...
flz
Profil
sa pozri do toho priecinku a zistis
Kapten
Profil *
Však já se podíval, právě mi to není jasné, oni si tam lidi dávají věci, které tam vůbec dávat nemusí a zakážou tomu indexování stránky, což je logické. Snad mě jen napadá, že je to pro to, aby v robot.txt alespoň něco měli, protože to souvisí s vyhledáváním...
nothrem
Profil
A neni to proto, že tam mají soukromé věci, které se stránkou nesouvisí?

Já mam třeba na stránkách složku http://www.nothrem.cz/images/ , ale nejsou v ní obrázky k stránce, ale moje soukromé obrázky, které používám na jiných webech a fórech.
Takže třeba když se podíváš přímo do složky, vyskočí ti 403 přístup zamítnnut, ale když se podíváš přímo na soubor http://www.nothrem.cz/images/avatar.jpg , načte se ti obrázek, který používám na fórech...

(vim že tohle neni o robots.txt ale o .htaccess, ale je to to samé)
Knopi
Profil
nothrem: Jenže to je špatně přeci, protože robots.txt se používá hlavně také pro to, aby se na stránce neobjevovali chybové stránky, takže když v robots.txt vypíšeš

User-agent: *
Disallow: /nenalezeno.php

a nahraješ tam tu stránku, která má zakázáno indexování....atd
Při každé takovéto chybové situaci se ti zobrazí klasická stránka, kterou si uděláš a návštěvník nevěřícně nebude koukat na chybovou stránku, která mu naprosto nic nepoví...
nothrem
Profil
no tak chybová stránka by měla hlavně odeslat správnou hlavičku a vyhledávač by se tím měl řídit...
ninja
Profil
Knopi: robots.txt se zcela jiste proti chybovym hlaskam nepouziva. Slouzi jako zdroj informaci pro crawlery. Muzes jim tim rici co maji, respektive nemaji indexovat a tim padem zarazovat do vysledku.

Disallow: /popelnice/ si do robots.txt dali proto, ze do tohoto adresare davaji veci, ktere nechteji aby se objevovali ve vysledcich vyhledavacu. Treba tam maji testovaci verze stranek, warez, kradene obrazky, nebo soukromy denicek.
Knopi
Profil
ninja: Ale vem si příklad, například si vymyslím libovolnou adresu http://www.hokejovyzazraci.net/ a návštěvník se bude chtít dostat na stránku, která tam vůbec není a za adresu ji napíše hokej.php[/b],]http://www.hokejovyzazraci.net/hokej.php, v normálním případě by se objevila chybová stránka, ale to je špatně, to nemůže tvůrce webové prezentace dopustit.

V robots.txt se logicky zakáže indexování libobovolné stránky nenalezeno.php, nebo v metě. Je fakt, že jsem o tom jen četl a chybí mi zkouška v praxi. Tak mě kdyžtak poraď, aby se např. při takovémto problémo objevila ta stránka nenalezeno.php a ne chybová, protože to je z mého pohledu velká chyba webdesignera, když něco podobného dopustí..., díky.
nothrem
Profil
Ale ty mluvíš o úplně něčem jiném.

To co myslíš ty (asi) je o .htaccess a errordocument.

Třeba na výše uvedené adrese (s těmi images) mam v příslušné složce soubor .htaccess, který obsahuje
Options -Indexes


ErrorDocument 400 "http://www.nothrem.cz/404.php?error=400"
ErrorDocument 401 "http://www.nothrem.cz/404.php?error=401"
ErrorDocument 402 "http://www.nothrem.cz/404.php?error=402"
ErrorDocument 403 "http://www.nothrem.cz/404.php?error=403"
ErrorDocument 404 "http://www.nothrem.cz/404.php?error=404"

Takže když se tam uživatel podívá na soubor který neexistuje (chyba 404), server si přečte z errordocument, že má načíst stránku 404.php s parametrem error=404 ... (zkus třeba http://www.nothrem.cz/blbost.sdf nebo http://blbost.nothrem.cz/ )

A ten soubor 404.php pošle mmj header s příslušnou chybou, takže vyhledávače ví, že ten odkaz je neplatný a ignorujou ho.

robots.txt je o tom, že když máš na webu soubor mysql_login.php ve kterém máš napsáno heslo ve své mysql databázi, tak do robots uvedeš disallow: mysql_login.php a žádný vyhledávač ti tvé heslo nezaindexuje! (ale uživatel, který zná jméno toho souboru se k němu dostane a může ho stáhnout - to se opět řeší v .htaccess
Knopi
Profil
Tak to opravdu mluvíme o něčem jiném...
tomek
Profil *
chtel bych se zeptat, jak mam nastavit robots.txt, aby se roboti nedivali do domeny tretiho radu.
umim zakazat pristup do adresaru, ale ne na poddomenu

Je tenhle zapis na priklad pro http://sem-roboti.nesmi.mojedomena.com spravne?

robots.txt:

User-agent: *
Disallow: /sem-roboti-nesmi

dekuju
DJ Miky
Profil
tomek
Do rootu té subdomény dej soubor robots.txt s tímto:
User-agent: *
Disallow: /

(nezkoušeno, mohlo by to fungovat)
Toto téma je uzamčeno. Odpověď nelze zaslat.

0