Diskuse JPW: Není zdejší robots.txt zbytečně přísný? (2)

« 1 2 3 4 »

	Autor	Zpráva
	Jan Tvrdík Profil	#1 · Zasláno: 31. 8. 2009, 23:40:06 · Upravil/a: Jan Tvrdík Odpovědět Citovat Kajman: „Chybí .sandbox, tam je taky zbytečné, aby chodily..“ Od tamtud je přesměruje .htaccess
	Kajman_ Profil *	#2 · Zasláno: 1. 9. 2009, 08:34:08 Odpovědět Citovat I tak je to zbytečný požadavek ;-)
	Chamurappi Profil	#3 · Zasláno: 1. 9. 2009, 11:04:44 Odpovědět Citovat Reaguji na Kajmana: Proč? Mně nepřipadá vůbec zbytečný.
	Kajman_ Profil *	#4 · Zasláno: 1. 9. 2009, 13:01:08 Odpovědět Citovat Jaký je užitek z toho, že např. google bot se chce kouknout do sandoboxu, server mu řekne, že musí poslat heslo, bot mu řekne, že žádné nepošle a server mu pak dát přesměrovací stránku? Myslím, že pro diskuzi to žádný znatelný přínos nemá.
	Chamurappi Profil	#5 · Zasláno: 1. 9. 2009, 13:03:15 Odpovědět Citovat Reaguji na Kajmana: „server mu řekne, že musí poslat heslo“ Neřekne, každý, kdo má v User-Agentovi slovo „bot“, je přesměrován hned.
	Kajman_ Profil *	#6 · Zasláno: 1. 9. 2009, 13:06:35 Odpovědět Citovat Aha a z toho je jaký znatelný užitek? :-)
	Chamurappi Profil	#7 · Zasláno: 1. 9. 2009, 13:21:18 Odpovědět Citovat Reaguji na Kajmana: Že lze odkazovat se stejným efektem na sandbox jako na ostrou verzi diskuse. Pokud nějaká superdobře superhodnocená superstránka odkáže na adresu se sandboxem, váha se přenese na ostrou verzi, místo toho, aby se zahodila. Snad. Jaký bude užitek z toho, že zakážeme situaci, kterou jsme už kdysi ošetřili?
	Kajman_ Profil *	#8 · Zasláno: 1. 9. 2009, 15:31:13 Odpovědět Citovat Ušetříme zase trošku výkonu. (Google a seznam si nové sandboxové url beztak zjišťují z jejich lištiček). Mně je to v celku jedno, jen mi přišlo, že tam chybí. A když by snad někdy takový odkaz vznikl, tak se dá robots.txt zase upravit... případně překousnout to, že bude ve vyhledávači odkaz bez obsahu.
		Časová prodleva: 1 měsíc
	Chamurappi Profil	#9 · Zasláno: 13. 10. 2009, 18:07:05 Odpovědět Citovat Poslední dobou narážím na čím dál víc případů, kdy moje paměť překonává index Googlu. Hledal jsem třeba jednoduchý odpočet času, věděl jsem, že tu bylo pěkné vlákno, kde jsme si povídali já a _es, a že tam padala slova jako „odpočet času“, „reaguji na _es“ a „getTimeZoneOffset“. Google ho není schopen najít. Také jsem hledal čtyři roky staré vlákno týkající se elementu <image>, které vzdáleně souviselo s nedávným dotazem. Marně. Ještě před rokem najít šlo. Nepříjemná tendence. Zajímavé ovšem je, že obě zmíněná vlákna dokáže najít Seznam. Po pár zběžných pokusech mi připadá, že fulltext Seznamu indexuje tuto diskusi lépe než jeho nadnárodní konkurent. Škoda, že nemá JS API.
	Str4wberry Profil	#10 · Zasláno: 13. 10. 2009, 18:15:59 Odpovědět Citovat To bude asi (jak už jsem psal) tím rozbitým stránkováním, kdy na některá vlákna prostě nevede žádný odkaz. Mělo by smysl jednorázově vygenerovat sitemap?
	Chamurappi Profil	#11 · Zasláno: 13. 10. 2009, 18:37:20 Odpovědět Citovat Reaguji na Str4wberryho: Dříve ten současný způsob stránkování nevadil. Na vlákno o odpočtu z diskuse vedou čtyři odkazy (s rel="nofollow"). „Mělo by smysl jednorázově vygenerovat sitemap?“ Nevím. Možná.
	Str4wberry Profil	#12 · Zasláno: 13. 10. 2009, 19:01:40 Odpovědět Citovat Teď koukám na to vlákno a ono je ještě na 39. stránce, takže je to dost podivné. Zkusil jsem ji tedy vygenerovat a vznikl z toho 9MB drobeček s 97 tisíci adres, dá se to použít? :–)
	Jan Tvrdík Profil	#13 · Zasláno: 13. 10. 2009, 21:57:26 · Upravil/a: Jan Tvrdík Odpovědět Citovat Str4wberry: „dá se to použít?“ Nejsem expert, ale vypadá to, že maximum url adres na jednu sitemapu je 50 000. Pokud jich je více, tak je potřeba to rozdělit do více sitemap. Maximální počet sitemap je také 50 000, takže celkový maximální počet url adres mi vychází na 2 500 000 000. „A Sitemap index can contain no more than 50,000 Sitemaps. Split your Sitemap index into multiple Sitemap index files and ensure that each contains no more than 50,000 Sitemaps. Then, resubmit your Sitemap index files individually.“ „A Sitemap can contain no more than 50,000 URLs. Split your Sitemap into multiple Sitemaps and ensure that each contains no more than 50,000 URLs. You can also use a Sitemap index to manage your Sitemaps. Then, submit your Sitemap index or your Sitemap files individually.“ Takže to chce jen vhodně rozdělit. Doplněno: Další čtení od Googlu
		Časová prodleva: 7 dní
	Chamurappi Profil	#14 · Zasláno: 21. 10. 2009, 00:54:16 Odpovědět Citovat Nový robots.txt je nasazený.
		Časová prodleva: 2 měsíce
	Kajman_ Profil *	#15 · Zasláno: 11. 12. 2009, 09:03:39 Odpovědět Citovat Chamurappi:21.10.2009 Nový robots.txt je nasazený. Nemůže s tím souviset zvýšený počet výpadků od začátku listopadu? Jen je otázka, jestli tu zátěž generují roboti, nebo návštěvníci přicházející ze spousty nových vyhledávačů :-)
	Chamurappi Profil	#16 · Zasláno: 11. 12. 2009, 11:31:00 Odpovědět Citovat Reaguji na Kajmana: Výpadky jsou pravidelně v 00:15 a 12:15 a trvají vždy pět minut. Je pravděpodobné, že za ně může nějaký robot. Z logů by mělo jít vykoukat, který to je, a můžeme ho zakázat. Těžko říct, co je příčina ostatních výpadků během dne, které jsou nepravidelné a čím dál častější.
	Kajman_ Profil *	#17 · Zasláno: 12. 12. 2009, 01:26:28 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat Mrkněte na sitemap.xml v sandboxu. Jednotlivé roky tam jsou v samostatných souborech, tak se to zatím vždy vešlo do limitu 50k linků i 10MB xml. Pokud je vlákno na více podstránkách, tak mají všechny nastaven čas modifikace na čas posledního příspěvku - výpočet času 30., 60 atd. by asi dost zdržoval a zas tak to asi nevadí. Myslím, že hlavní přínos robotům bude právě to datum úpravy vlánka, aby věděly, že mají poslední verzi a nemusí na to chodit znovu. Jednotlivé roky jsou nastavené na generaci po týdnu, poslední dva měsíce každý den a úplně ty nejnovější jsou přímo z db za posledních 24 hodin. Může se tedy za určitých okolností stát, že jeden odkaz může být třeba i ve třech sitemapách, pokaždé s jiným modifikačním časem - ale to snad taky nebude problém. Ty generované sitemapy mají také čas modifikace, tak snad robot vezme to nejaktuálnější. U ledu má prioritu sníženou, vlákna, označená jako důležitá, zvýšenou. Má cenu dávat do mapy i něco jiného než vlákna? Hlavní stránku, nápovědu, uživatele? Ještě někoho napadá, co by mohlo být jinak? A když by se to použilo, tak by se možná hodilo uvést tu adresu v robots.txt jako sitemap:.
	Kajman_ Profil *	#18 · Zasláno: 13. 12. 2009, 00:27:40 Odpovědět Citovat Možná bych do robots.txt přidal i rozbalení uživatele... /?action=userinfo&user=*&vse
	Chamurappi Profil	#19 · Zasláno: 13. 12. 2009, 07:29:31 Odpovědět Citovat Reaguji na Kajmana: Skvělá práce. „Má cenu dávat do mapy i něco jiného než vlákna? Hlavní stránku, nápovědu, uživatele?“ Najít hlavní stránku i nápovědu snad zvládnou i ti nejhloupější boti. Mapa s adresami profilů se může hodit. „by se možná hodilo uvést tu adresu v robots.txt“ Hotovo. „Možná bych do robots.txt přidal i rozbalení uživatele“ Hotovo. I když si pořád myslím, že bychom se neměli pokoušet ladit výsledky ve vyhledávačích pomocí robots.txt. Ten výpis snad moc nezatěžuje databázi, ne?
	Kajman_ Profil *	#20 · Zasláno: 13. 12. 2009, 10:14:16 Odpovědět Citovat Mapa uživatelů v nově nasazené verzi je už také, ale nedělal jsem tam to "vse", proto mi přišlo, že by se to mohlo zakázat. Výpis uživatele je jedna z nejpomalejších stránek (mimo hledání). Ale zatrhnutí "vse" tolik rychlost neovlivní. Myslím, že nejvíc tam zdržovalo neuvádění takových posledních příspěvků, co jsou i v posledních tématech.
	Kajman_ Profil *	#21 · Zasláno: 13. 12. 2009, 23:27:54 Odpovědět Citovat Tak to vypadá, že dotazy nepomohly. Co se navrátit k robots.txt, který povoloval jen vybrané vyhledávače s tím, že by se tam mohl přidat bing a yahoo? Nebo jestli půjde z logů vyčíst, který robot zlobí těch pět minut (nepřidala se tam i pětiminutovka po šesté?) třeba bude stačit zakázat jen jeho.
	Chamurappi Profil	#22 · Zasláno: 14. 12. 2009, 01:16:22 Odpovědět Citovat Reaguji na Kajmana: „Nebo jestli půjde z logů vyčíst, který robot zlobí těch pět minut“ Počkal bych na ty logy, pak se uvidí. Už by měly být na cestě. (Respektive cesta k nim je na cestě.) „(nepřidala se tam i pětiminutovka po šesté?)“ Vypadá to tak. „třeba bude stačit zakázat jen jeho“ A když nebude poslouchat, zakážeme ho nějak jinak? Uvědomil jsem si, že pravidelné pětiminutové výpadky bývaly i dříve, ale v jiných časech (někdy kolem 11. a 23. hodiny). Je možné, že se v listopadu jen posunul čas výpadků do více navštěvované doby, a proto vypadá statistika děsivěji. Nicméně ty výpadky kolem osmnácté hodiny takto vysvětlit nejde.
		Časová prodleva: 3 dny
	Kajman_ Profil *	#23 · Zasláno: 17. 12. 2009, 08:39:19 Odpovědět Citovat [#5] Chamurappi Neřekne, každý, kdo má v User-Agentovi slovo „bot“, je přesměrován hned. Ale až po tom, co dostane 401 - nutné přihlášení. Googlebot tedy uvádí požadavky do sandboxu v http chybách. http://diskuse.jakpsatweb.cz/.sandbox/index.php?action=vthread&forum=10&topic=67404 401 error Dec 14, 2009
	DoubleThink Profil *	#24 · Zasláno: 17. 12. 2009, 09:39:38 Odpovědět Citovat Kajman: „Ale až po tom, co dostane 401 - nutné přihlášení. Googlebot tedy uvádí požadavky do sandboxu v http chybách.“ Neměl by, bot by měl dostat rovnou 3xx hlavičku.
	Kajman_ Profil *	#25 · Zasláno: 17. 12. 2009, 09:52:01 Odpovědět Citovat Jo, je to divné, když si nastavím user agenta na googlebota, dostanu 301 hned. Když ho nemám, tak 401. V google webmaster tools tvrdí, že dostává 401, tak snad jedině, by tam tam zkoušel semtam jít i s jiným user agentem.
	Kajman_ Profil *	#26 · Zasláno: 18. 12. 2009, 13:44:10 Odpovědět Citovat Vypadá to, že dnes nebylo pětiminutové přetížení od 0:15, 6:15 ani 12:15. Čím by to mohlo být? robots.txt vypadá stejně.
	Petr ZZZ Profil	#27 · Zasláno: 18. 12. 2009, 15:09:10 Odpovědět Citovat Jen taková myšlenka: Co když autor toho bota rozumí česky a čte zdejší diskuzi? Třeba něco ve svém výrobku upravil, aby ty problémy nebyly (nebo ho jen posílá v jiné časy). Nebo jeho bot dělal problémy i jinde, autor si všiml, že je všude zakazován a něco změnil. A ani česky neumí.
	Kajman_ Profil *	#28 · Zasláno: 18. 12. 2009, 15:17:13 Odpovědět Citovat To už jsou pravděpodobnější varianty... - hosting ho už vypátral a odstřihnul - věří uvedenému lastmod v nové sitemapě
	Chamurappi Profil	#29 · Zasláno: 18. 12. 2009, 15:25:11 · Upravil/a: Chamurappi Odpovědět Citovat Reaguji na Petra ZZZ: To jsou moc komplikované teorie. Těch hodných botů sem asi moc nechodí. Reaguji na Kajmana: „robots.txt vypadá stejně“ Všechno ostatní je také stejné. Přemýšlím nad tím, který robot by mohl mít důvod k tak přesně načasovaným návštěvám. Žádný mě nenapadá. I u těch nejhloupějších vyhledávačů by měl být harmonogram indexování dynamicky generovaný samorost. Spíš to vypadá, že na stejném serveru, na kterém běží diskuse, běží i jiný web a ten má (či měl) naplánovanou nějakou náročnou údržbářskou akci s dvanáctihodinovým intervalem. „Googlebot tedy uvádí požadavky do sandboxu v http chybách.“ Vadí to něčemu? (Snažím se do sandboxu neodkazovat. Všichni bychom se měli snažit.) „snad jedině, by tam tam zkoušel semtam jít i s jiným user agentem“ Před pár měsíci jsem si všiml, že Google občas indexuje Geckem (se zapnutým JavaScriptem).
	Petr ZZZ Profil	#30 · Zasláno: 18. 12. 2009, 17:19:42 Odpovědět Citovat Chamurappi: „Těch hodných botů sem asi moc nechodí.“ Nemusí být hodný, může se snažit předejít odstřižení. Ale netvrdím, že je mé vysvětlení pravděpodobné.
		Téma pokračuje na další straně.

« 1 2 3 4 »

Vaše odpověď

Mohlo by se hodit

Odkud se sem odkazuje