Diskuse JPW: Není zdejší robots.txt zbytečně přísný?

« 1 2 3 4 »

	Autor	Zpráva
	Chamurappi Profil	#1 · Zasláno: 10. 6. 2009, 15:34:26 Odpovědět Citovat User-Agent: * Disallow: / User-Agent: Holmes Disallow: /index.php?action=registernew Disallow: /index.php?action=language Disallow: /index.php?action=sendpass Disallow: /index.php?sortBy Disallow: /index.php?action=userinfo User-Agent: SeznamBot Disallow: /index.php?action=registernew Disallow: /index.php?action=language Disallow: /index.php?action=sendpass Disallow: /index.php?sortBy User-Agent: Googlebot Disallow: /index.php?action=registernew Disallow: /index.php?action=language Disallow: /index.php?action=sendpass Disallow: /index.php?sortBy Konkurence známých vyhledávačů nemá nárok? Má to nějaký důvod?
	bohyn Profil	#2 · Zasláno: 10. 6. 2009, 16:22:44 · Upravil/a: bohyn Odpovědět Citovat Chamurappi ~~Podle tohoto by nemel mit zadny bot sanci. Google ale indexuje, jak to?~~
	Kajman_ Profil *	#3 · Zasláno: 10. 6. 2009, 16:43:03 Odpovědět Citovat Spíš bych tam ještě těm třem povoleným robotům zakázal action=search - to je jeden z nejnáročnějších skriptů. Plus verzi s vynechaným index.php :-)
	Chamurappi Profil	#4 · Zasláno: 10. 6. 2009, 19:59:08 Odpovědět Citovat Reaguji na Kajmana: Klidně. Ale proč zakazujeme ostatním robotům indexování vláken?
	fuckin Profil *	#5 · Zasláno: 10. 6. 2009, 20:07:29 Odpovědět Citovat treba aby to neindexovaly "podomacku vyrobene" vyhledavace a nesnizovali mu jeho vysoky PR.
	Chamurappi Profil	#6 · Zasláno: 10. 6. 2009, 20:17:33 Odpovědět Citovat Reaguji na fuckin: Tomu nějak nerozumím.
	fuckin Profil *	#7 · Zasláno: 10. 6. 2009, 20:58:17 Odpovědět Citovat jaky ma ten dany web pagerank? Uved adresu v lepsim pripade
	bohyn Profil	#8 · Zasláno: 10. 6. 2009, 21:01:15 Odpovědět Citovat fuckin Na GTPR se muzes podivat sam a adresu znas - podivej se do titulku. Predpokladam ze Chamurappi nechape jak muze vyhledavac snizovat hodnoceni stranky.
	fuckin Profil *	#9 · Zasláno: 10. 6. 2009, 21:07:41 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat neni zdejsi robots.txt zbytecne prisny? Asi sem slepy ale v titulku nic nevidim... Jelikoz sem na mobilu ktery zpracovava html tagy i v PRE ktere jsou tady na webu na ukazku tak je mozne ze ho proste nevidim, v tom pripade se omlouvam. Moderátor Chamurappi: Debata o tomto problému bude pokračovat ve vláknu Problémy s JUSHem v mobilních prohlížečích.
	bohyn Profil	#10 · Zasláno: 10. 6. 2009, 21:09:56 Odpovědět Citovat fuckin neni zdejsi robots.txt zbytecne prisny? = Tady na diskuzi
	Chamurappi Profil	#11 · Zasláno: 10. 6. 2009, 21:17:53 · Upravil/a: Chamurappi Odpovědět Citovat Reaguji na fuckin: I kdyby se nejednalo o zdejší robots.txt, tak nechápu, jak můžou nějakému webu „podomácku vyrobené vyhledávače“ snížit jeho vysoký pagerank.
	nightfish Profil	#12 · Zasláno: 10. 6. 2009, 21:24:46 · Upravil/a: nightfish Odpovědět Citovat „jak můžou nějakému webu „podomácku vyrobené vyhledávače“ snížit jeho vysoký pagerank.“ jestli kolega fuckin nemá na mysli pagerank sculpting (snižování pageranku; ovšem s podomácku vyrobenými vyhledavači to nesouvisí)
	Kajman_ Profil *	#13 · Zasláno: 10. 6. 2009, 21:33:35 Odpovědět Citovat Čím víc robotů bude projíždět stotisíc místních stránek, tím bude diskuze pomalejší pro lidi. Myslím, že je tak přísný kvůli moc velké zátěži, kterou tahle diskuze vytváří. Co by mělo cenu tam přidat? Yahoo, Jyxo, Live? Jiné vyhledávače si mohou projít statické stránky a jestli nějakého uživatele zaujmou, snad najde cestu i k otázkám.
	fuckin Profil *	#14 · Zasláno: 10. 6. 2009, 21:35:08 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat nightfish Ne to sem zrovna na mysli nemel, ikdyz hlavou me to problesklo, mam na mysli jinou techniku, akorat si nepamatuju nazev a presny popis. Pokusim se to co nejdriv najit...
	Nox Profil	#15 · Zasláno: 10. 6. 2009, 21:43:29 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat Chamurappi (Ty první dva řádky taky nechápu, dal bych to pryč) Aha, Kajman to docela rozumně vysvětlil...no asi to tedy nechat...nebo nevím, co povolit aspoň Google?
	Kajman_ Profil *	#16 · Zasláno: 10. 6. 2009, 21:47:43 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat Nox První řádky zakážou všem robotům vše. Ale těm pár vybraným robotům se dají jiná přesnější pravidla.
	fuckin Profil *	#17 · Zasláno: 10. 6. 2009, 21:55:48 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat Kdyz chces povolit robotum vse tak se pise... User-Agent: * Disallow: Neni to jen tak ciste nahodou ekvivalentni? (rekl bych ze ne, ale chtel bych nastinit i moznost ze sme se vsichni spletli :D)
	Nox Profil	#18 · Zasláno: 10. 6. 2009, 22:05:57 · Upravil/a: Moderátor (editace znemožněna) Odpovědět Citovat Kajman_ Tím co jsem psal jsem myslel 'nechápu jejich přítomnost', ale to už jsi vysvětlil, než jsem odeslal příspěvek Na druhou stranu...nevyplývá z těch prvních dvou i ty ostatní pravidla? aka nejsou pak redundantní? fuckin „Kdyz chces povolit robotum vse tak se pise...“ Nejspíš jde o to lomeno
	Chamurappi Profil	#19 · Zasláno: 10. 6. 2009, 22:59:51 · Upravil/a: Chamurappi Odpovědět Citovat Reaguji na Noxe: Google tuto diskusi indexuje velmi pozorně. Už teď se každý, kdo hledá „přísný robots.txt“, dostane sem. Reaguji na Kajmana: „Myslím, že je tak přísný kvůli moc velké zátěži, kterou tahle diskuze vytváří.“ Velká zátěž je universální strašák. Máme nějaká konkrétní měření? Budeme je někdy mít? Nezpůsobuje každý požadavek na RSS stejnou zátěž jako nalistování vlákna? Byl by robot otravnější než odběratelé RSS? Běžně se tu courají i všelijací spamovací roboti, ti zatěžují méně než indexovací robot? Pokud vím, tak robots.txt je v takovéto podobě už mnoho let. Patrně nevznikl v reakci na velkou zátěž. „Co by mělo cenu tam přidat? Yahoo, Jyxo, Live?“ Nic konkrétního nejmenovat. Zakázat všem to, co by se indexovat nemělo, a povolit všem zbytek.
	Marek Prokop Profil	#20 · Zasláno: 10. 6. 2009, 23:29:29 Odpovědět Citovat „Zakázat všem to, co by se indexovat nemělo, a povolit všem zbytek.“ Nechal bych rozhodnutí na tom, kdo platí server a konektivitu.
	imploder Profil	#21 · Zasláno: 10. 6. 2009, 23:43:57 Odpovědět Citovat Chamurappi Google tuto diskusi indexuje velmi pozorně. Google ano, ale např. Bing ne. Lidem, kteří by ho chtěli používat místo Googlu protože je lepší, to celou diskuzi JPW znepřístupní.
	Jan Tvrdík Profil	#22 · Zasláno: 11. 6. 2009, 15:21:36 · Upravil/a: Jan Tvrdík Odpovědět Citovat „Máme nějaká konkrétní měření? Budeme je někdy mít?“ Už jsem se na měření ptal Str4wberryho a nic nemá. Až bude v provozu to SVN, mám v plánu nějaká měření provést. Zatím ale nemám chuť se do vývoje aktivně zapojit.
		Časová prodleva: 5 dní
	Chamurappi Profil	#23 · Zasláno: 16. 6. 2009, 17:46:35 Odpovědět Citovat Reaguji na Marka Prokopa: Řadu menších rozhodnutí, které také ovlivňují zátěž, děláme bez Yuhůa. Nechceme mu brát poslední slovo (ani mu ho brát nemůžeme), ale on se obvykle nevyslovuje. Zatím jsme stejně o ničem definitivním nerozhodli. Reaguji na implodera: „Google ano, ale např. Bing ne.“ Přesně tak. V novém JS pro diskusi si hraji s API Googlu. Zjistil jsem, že Bing má také zajímavé API, ale že s ním si tu hrát nemůžu, protože je pro něj diskuse neviditelná. Google navíc neindexuje celou diskusi, občas mu něco vypadne. Rozčiluje mě, když nemůžu najít vlákno, u kterého přesně vím, kdo do něj psal a jaké formulace přibližně volil. Kdybych mohl použít druhý vyhledávač (který by také neindexoval úplně celou diskusi), měl bych větší šance najít konkrétní věc. Reaguji na Jana Tvrdíka: „Až bude v provozu to SVN, mám v plánu nějaká měření provést.“ Nešlo by to dřív? Mám obavu, abychom pár dní po nasazení současného sandboxu nemuseli kvůli zátěži zařadit zpátečku.
		Časová prodleva: 2 měsíce
	Yuhů Profil	#24 · Zasláno: 28. 8. 2009, 01:40:10 Odpovědět Citovat Důvodem restriktivního robots.txt byly výkonové problémy loni na jaře, pokud si dobře pamatuju. Chamurappi, prosím pošli mi svůj definitivní návrh na robots.txt, dám to tam. Pokud jde o rozhodování o diskusi, něco s tím udělám.
	Chamurappi Profil	#25 · Zasláno: 28. 8. 2009, 12:27:25 · Upravil/a: Chamurappi Odpovědět Citovat Reaguji na Yuhůa: „Důvodem restriktivního robots.txt byly výkonové problémy loni na jaře“ Tento svůj dotaz jsem sice odeslal letos v červnu, ale napsal jsem ho o mnoho měsíců dříve, již před loňskými problémy. Trochu jsem pátral, archive.org má sice zakázáno zdejší stránky archivovat, ale samotný robots.txt archivoval docela důsledně. Ke změně došlo přibližně 20. ledna 2007. Prošel jsem diskuse z té doby a nenašel jsem žádnou veřejnou zmínku vysvětlující dotyčnou změnu. Záhada asi zůstane záhadou. Navrhuji tedy (zatím nedefinitivně) upravit robots.txt takto: User-Agent: * Disallow: /index.php?action=registernew Disallow: /index.php?action=language Disallow: /index.php?action=sendpass Disallow: /index.php?sortBy Disallow: /index.php?action=search Disallow: /index.php?ldisc Disallow: /index.php?action=stats Disallow: /index.php?action=vtopic&forum=30 Disallow: /index.php?action=vthread&forum=30 Disallow: /?action=registernew Disallow: /?action=sendpass Disallow: /?sortBy Disallow: /?action=search Disallow: /?ldisc Disallow: /?last Disallow: /?action=bezreakci Disallow: /?action=stats Disallow: /?action=vtopic&forum=30 Disallow: /?action=vthread&forum=30 Kývnete mi na to někdo?
	Str4wberry Profil	#26 · Zasláno: 28. 8. 2009, 13:15:12 Odpovědět Citovat Možná bych přidal: Disallow: /?action=vtopic
	Chamurappi Profil	#27 · Zasláno: 28. 8. 2009, 13:47:36 · Upravil/a: Chamurappi Odpovědět Citovat Reaguji na Str4wberryho: Tím bychom asi odřízli docela důležitou větev pro dohledávání dalších vláken, ne? Možná jsem tam neměl dávat ani tu ledovou kategorii. Řekl bych, že hlavním účelem souborů robots.txt je šetřit zátěž, tedy odehnat roboty od věcí, na které je nevhodné či zcela zbytečné posílat požadavky. To, jestli se má stránka ukazovat ve výsledcích, už je trochu jiná otázka, na kterou můžeme lépe odpovídat pomocí <meta name="robots">.
		Časová prodleva: 3 dny
	Str4wberry Profil	#28 · Zasláno: 31. 8. 2009, 20:40:41 Odpovědět Citovat Předpokládal jsem, že se Google dostane na vlákna přes poslední diskusi. Sice ano, ale časem je, zdá se, zapomene. Takže by to chtělo vytvořit mapu webu anebo opravit stránkování kategorií, protože témata na neodkazovatelných stranách vyhledávače zapomínají. Tohle bude zřejmě i příčina, proč Tě rozčiluje, když nemůžeš najít vlákno, u kterého přesně víš, kdo do něj psal a jaké formulace přibližně volil. Takže pokud nevytvoříme mapu webu, tak „?action=vtopic“ nepřidávat. Pokud ji budeme mít, tak myslím, že už to pro dohledávání dalších vláken nebude potřeba.
	Chamurappi Profil	#29 · Zasláno: 31. 8. 2009, 20:57:01 Odpovědět Citovat Reaguji na Str4wberryho: „pokud nevytvoříme mapu webu, tak ‚?action=vtopic‘ nepřidávat“ Už jsem před pár hodinami poslal Yuhůovi verzi, která počítá s tím, že během dneška nevytvoříme mapu webu :-) Není třeba oddalovat drobné změny. Až/jestli zavedeme mapu webu, předpokládám, že budeme moci robots.txt opět změnit.
	Kajman_ Profil *	#30 · Zasláno: 31. 8. 2009, 21:23:19 Odpovědět Citovat Chybí .sandbox, tam je taky zbytečné, aby chodily..
		Téma pokračuje na další straně.

« 1 2 3 4 »

Vaše odpověď

Mohlo by se hodit

Odkud se sem odkazuje