Diskuse JPW: robots.txt

	Autor	Zpráva
	Kapten Profil *	#1 · Zasláno: 20. 7. 2006, 23:47:05 Odpovědět Citovat Ahoj, zrovna jsem nastudoval význam robots.txt, ale nějak mi není jasné proč třeba lidé tam zakazují např. vstup do adresáře: User-agent: * Disallow: /popelnice/ Normálně ten web je zaměřený na úplně něco jiného, tak vůbec nevím, proč tam suší popelnice. Až mě to spíše rozesmálo...
	flz Profil	#2 · Zasláno: 21. 7. 2006, 02:09:17 Odpovědět Citovat sa pozri do toho priecinku a zistis
	Kapten Profil *	#3 · Zasláno: 21. 7. 2006, 08:48:42 Odpovědět Citovat Však já se podíval, právě mi to není jasné, oni si tam lidi dávají věci, které tam vůbec dávat nemusí a zakážou tomu indexování stránky, což je logické. Snad mě jen napadá, že je to pro to, aby v robot.txt alespoň něco měli, protože to souvisí s vyhledáváním...
	nothrem Profil	#4 · Zasláno: 21. 7. 2006, 09:05:32 Odpovědět Citovat A neni to proto, že tam mají soukromé věci, které se stránkou nesouvisí? Já mam třeba na stránkách složku http://www.nothrem.cz/images/ , ale nejsou v ní obrázky k stránce, ale moje soukromé obrázky, které používám na jiných webech a fórech. Takže třeba když se podíváš přímo do složky, vyskočí ti 403 přístup zamítnnut, ale když se podíváš přímo na soubor http://www.nothrem.cz/images/avatar.jpg , načte se ti obrázek, který používám na fórech... (vim že tohle neni o robots.txt ale o .htaccess, ale je to to samé)
	Knopi Profil	#5 · Zasláno: 21. 7. 2006, 10:10:55 Odpovědět Citovat nothrem: Jenže to je špatně přeci, protože robots.txt se používá hlavně také pro to, aby se na stránce neobjevovali chybové stránky, takže když v robots.txt vypíšeš User-agent: * Disallow: /nenalezeno.php a nahraješ tam tu stránku, která má zakázáno indexování....atd Při každé takovéto chybové situaci se ti zobrazí klasická stránka, kterou si uděláš a návštěvník nevěřícně nebude koukat na chybovou stránku, která mu naprosto nic nepoví...
	nothrem Profil	#6 · Zasláno: 21. 7. 2006, 10:19:10 Odpovědět Citovat no tak chybová stránka by měla hlavně odeslat správnou hlavičku a vyhledávač by se tím měl řídit...
	ninja Profil	#7 · Zasláno: 21. 7. 2006, 10:21:11 Odpovědět Citovat Knopi: robots.txt se zcela jiste proti chybovym hlaskam nepouziva. Slouzi jako zdroj informaci pro crawlery. Muzes jim tim rici co maji, respektive nemaji indexovat a tim padem zarazovat do vysledku. Disallow: /popelnice/ si do robots.txt dali proto, ze do tohoto adresare davaji veci, ktere nechteji aby se objevovali ve vysledcich vyhledavacu. Treba tam maji testovaci verze stranek, warez, kradene obrazky, nebo soukromy denicek.
	Knopi Profil	#8 · Zasláno: 21. 7. 2006, 11:14:36 · Upravil/a: Knopi Odpovědět Citovat ninja: Ale vem si příklad, například si vymyslím libovolnou adresu http://www.hokejovyzazraci.net/ a návštěvník se bude chtít dostat na stránku, která tam vůbec není a za adresu ji napíše hokej.php[/b],]http://www.hokejovyzazraci.net/hokej.php, v normálním případě by se objevila chybová stránka, ale to je špatně, to nemůže tvůrce webové prezentace dopustit. V robots.txt se logicky zakáže indexování libobovolné stránky nenalezeno.php, nebo v metě. Je fakt, že jsem o tom jen četl a chybí mi zkouška v praxi. Tak mě kdyžtak poraď, aby se např. při takovémto problémo objevila ta stránka nenalezeno.php a ne chybová, protože to je z mého pohledu velká chyba webdesignera, když něco podobného dopustí..., díky.
	nothrem Profil	#9 · Zasláno: 21. 7. 2006, 11:22:25 · Upravil/a: nothrem Odpovědět Citovat Ale ty mluvíš o úplně něčem jiném. To co myslíš ty (asi) je o .htaccess a errordocument. Třeba na výše uvedené adrese (s těmi images) mam v příslušné složce soubor .htaccess, který obsahuje Options -Indexes ErrorDocument 400 "http://www.nothrem.cz/404.php?error=400" ErrorDocument 401 "http://www.nothrem.cz/404.php?error=401" ErrorDocument 402 "http://www.nothrem.cz/404.php?error=402" ErrorDocument 403 "http://www.nothrem.cz/404.php?error=403" ErrorDocument 404 "http://www.nothrem.cz/404.php?error=404" Takže když se tam uživatel podívá na soubor který neexistuje (chyba 404), server si přečte z errordocument, že má načíst stránku 404.php s parametrem error=404 ... (zkus třeba http://www.nothrem.cz/blbost.sdf nebo http://blbost.nothrem.cz/ ) A ten soubor 404.php pošle mmj header s příslušnou chybou, takže vyhledávače ví, že ten odkaz je neplatný a ignorujou ho. robots.txt je o tom, že když máš na webu soubor mysql_login.php ve kterém máš napsáno heslo ve své mysql databázi, tak do robots uvedeš disallow: mysql_login.php a žádný vyhledávač ti tvé heslo nezaindexuje! (ale uživatel, který zná jméno toho souboru se k němu dostane a může ho stáhnout - to se opět řeší v .htaccess
	Knopi Profil	#10 · Zasláno: 21. 7. 2006, 14:14:10 · Upravil/a: Knopi Odpovědět Citovat Tak to opravdu mluvíme o něčem jiném...
		Časová prodleva: 10 dní
	tomek Profil *	#11 · Zasláno: 31. 7. 2006, 15:17:11 Odpovědět Citovat chtel bych se zeptat, jak mam nastavit robots.txt, aby se roboti nedivali do domeny tretiho radu. umim zakazat pristup do adresaru, ale ne na poddomenu Je tenhle zapis na priklad pro http://sem-roboti.nesmi.mojedomena.com spravne? robots.txt: User-agent: * Disallow: /sem-roboti-nesmi dekuju
	DJ Miky Profil	#12 · Zasláno: 31. 7. 2006, 15:21:33 Odpovědět Citovat tomek Do rootu té subdomény dej soubor robots.txt s tímto: User-agent: * Disallow: / (nezkoušeno, mohlo by to fungovat)
		Časová prodleva: 18 let

Toto téma je uzamčeno. Odpověď nelze zaslat.