21. září bude sraz! Od 18.00 v restauraci Tradice v Praze u Anděla
« 1 2 3 4 »
Autor Zpráva
Chamurappi
Profil
User-Agent: *
Disallow: /

User-Agent: Holmes
Disallow: /index.php?action=registernew
Disallow: /index.php?action=language
Disallow: /index.php?action=sendpass
Disallow: /index.php?sortBy
Disallow: /index.php?action=userinfo

User-Agent: SeznamBot
Disallow: /index.php?action=registernew
Disallow: /index.php?action=language
Disallow: /index.php?action=sendpass
Disallow: /index.php?sortBy

User-Agent: Googlebot
Disallow: /index.php?action=registernew
Disallow: /index.php?action=language
Disallow: /index.php?action=sendpass
Disallow: /index.php?sortBy

Konkurence známých vyhledávačů nemá nárok? Má to nějaký důvod?
bohyn
Profil
Chamurappi
Podle tohoto by nemel mit zadny bot sanci. Google ale indexuje, jak to?
Kajman_
Profil *
Spíš bych tam ještě těm třem povoleným robotům zakázal action=search - to je jeden z nejnáročnějších skriptů. Plus verzi s vynechaným index.php :-)
Chamurappi
Profil
Reaguji na Kajmana:
Klidně. Ale proč zakazujeme ostatním robotům indexování vláken?
fuckin
Profil *
treba aby to neindexovaly "podomacku vyrobene" vyhledavace a nesnizovali mu jeho vysoky PR.
Chamurappi
Profil
Reaguji na fuckin:
Tomu nějak nerozumím.
fuckin
Profil *
jaky ma ten dany web pagerank? Uved adresu v lepsim pripade
bohyn
Profil
fuckin
Na GTPR se muzes podivat sam a adresu znas - podivej se do titulku. Predpokladam ze Chamurappi nechape jak muze vyhledavac snizovat hodnoceni stranky.
fuckin
Profil *
neni zdejsi robots.txt zbytecne prisny?
Asi sem slepy ale v titulku nic nevidim...

Jelikoz sem na mobilu ktery zpracovava html tagy i v PRE ktere jsou tady na webu na ukazku tak je mozne ze ho proste nevidim, v tom pripade se omlouvam.
Moderátor Chamurappi: Debata o tomto problému bude pokračovat ve vláknu Problémy s JUSHem v mobilních prohlížečích.
bohyn
Profil
fuckin
neni zdejsi robots.txt zbytecne prisny? = Tady na diskuzi
Chamurappi
Profil
Reaguji na fuckin:
I kdyby se nejednalo o zdejší robots.txt, tak nechápu, jak můžou nějakému webu „podomácku vyrobené vyhledávače“ snížit jeho vysoký pagerank.
nightfish
Profil
jak můžou nějakému webu „podomácku vyrobené vyhledávače“ snížit jeho vysoký pagerank.
jestli kolega fuckin nemá na mysli pagerank sculpting (snižování pageranku; ovšem s podomácku vyrobenými vyhledavači to nesouvisí)
Kajman_
Profil *
Čím víc robotů bude projíždět stotisíc místních stránek, tím bude diskuze pomalejší pro lidi. Myslím, že je tak přísný kvůli moc velké zátěži, kterou tahle diskuze vytváří.

Co by mělo cenu tam přidat? Yahoo, Jyxo, Live? Jiné vyhledávače si mohou projít statické stránky a jestli nějakého uživatele zaujmou, snad najde cestu i k otázkám.
fuckin
Profil *
nightfish
Ne to sem zrovna na mysli nemel, ikdyz hlavou me to problesklo, mam na mysli jinou techniku, akorat si nepamatuju nazev a presny popis. Pokusim se to co nejdriv najit...
Nox
Profil
Chamurappi
(Ty první dva řádky taky nechápu, dal bych to pryč)
Aha, Kajman to docela rozumně vysvětlil...no asi to tedy nechat...nebo nevím, co povolit aspoň Google?
Kajman_
Profil *
Nox
První řádky zakážou všem robotům vše. Ale těm pár vybraným robotům se dají jiná přesnější pravidla.
fuckin
Profil *
Kdyz chces povolit robotum vse tak se pise...
User-Agent: *
Disallow:
Neni to jen tak ciste nahodou ekvivalentni? (rekl bych ze ne, ale chtel bych nastinit i moznost ze sme se vsichni spletli :D)
Nox
Profil
Kajman_
Tím co jsem psal jsem myslel 'nechápu jejich přítomnost', ale to už jsi vysvětlil, než jsem odeslal příspěvek
Na druhou stranu...nevyplývá z těch prvních dvou i ty ostatní pravidla? aka nejsou pak redundantní?

fuckin
Kdyz chces povolit robotum vse tak se pise...
Nejspíš jde o to lomeno
Chamurappi
Profil
Reaguji na Noxe:
Google tuto diskusi indexuje velmi pozorně. Už teď se každý, kdo hledá „přísný robots.txt“, dostane sem.


Reaguji na Kajmana:
Myslím, že je tak přísný kvůli moc velké zátěži, kterou tahle diskuze vytváří.
Velká zátěž je universální strašák. Máme nějaká konkrétní měření? Budeme je někdy mít?
Nezpůsobuje každý požadavek na RSS stejnou zátěž jako nalistování vlákna? Byl by robot otravnější než odběratelé RSS? Běžně se tu courají i všelijací spamovací roboti, ti zatěžují méně než indexovací robot?

Pokud vím, tak robots.txt je v takovéto podobě už mnoho let. Patrně nevznikl v reakci na velkou zátěž.

Co by mělo cenu tam přidat? Yahoo, Jyxo, Live?
Nic konkrétního nejmenovat. Zakázat všem to, co by se indexovat nemělo, a povolit všem zbytek.
Marek Prokop
Profil
Zakázat všem to, co by se indexovat nemělo, a povolit všem zbytek.

Nechal bych rozhodnutí na tom, kdo platí server a konektivitu.
imploder
Profil
Chamurappi
Google tuto diskusi indexuje velmi pozorně. Google ano, ale např. Bing ne. Lidem, kteří by ho chtěli používat místo Googlu protože je lepší, to celou diskuzi JPW znepřístupní.
Jan Tvrdík
Profil
Máme nějaká konkrétní měření? Budeme je někdy mít?
Už jsem se na měření ptal Str4wberryho a nic nemá. Až bude v provozu to SVN, mám v plánu nějaká měření provést. Zatím ale nemám chuť se do vývoje aktivně zapojit.
Chamurappi
Profil
Reaguji na Marka Prokopa:
Řadu menších rozhodnutí, které také ovlivňují zátěž, děláme bez Yuhůa. Nechceme mu brát poslední slovo (ani mu ho brát nemůžeme), ale on se obvykle nevyslovuje.
Zatím jsme stejně o ničem definitivním nerozhodli.


Reaguji na implodera:
Google ano, ale např. Bing ne.
Přesně tak. V novém JS pro diskusi si hraji s API Googlu. Zjistil jsem, že Bing má také zajímavé API, ale že s ním si tu hrát nemůžu, protože je pro něj diskuse neviditelná.

Google navíc neindexuje celou diskusi, občas mu něco vypadne. Rozčiluje mě, když nemůžu najít vlákno, u kterého přesně vím, kdo do něj psal a jaké formulace přibližně volil. Kdybych mohl použít druhý vyhledávač (který by také neindexoval úplně celou diskusi), měl bych větší šance najít konkrétní věc.


Reaguji na Jana Tvrdíka:
Až bude v provozu to SVN, mám v plánu nějaká měření provést.
Nešlo by to dřív? Mám obavu, abychom pár dní po nasazení současného sandboxu nemuseli kvůli zátěži zařadit zpátečku.
Yuhů
Profil
Důvodem restriktivního robots.txt byly výkonové problémy loni na jaře, pokud si dobře pamatuju. Chamurappi, prosím pošli mi svůj definitivní návrh na robots.txt, dám to tam.

Pokud jde o rozhodování o diskusi, něco s tím udělám.
Chamurappi
Profil
Reaguji na Yuhůa:
Důvodem restriktivního robots.txt byly výkonové problémy loni na jaře
Tento svůj dotaz jsem sice odeslal letos v červnu, ale napsal jsem ho o mnoho měsíců dříve, již před loňskými problémy.
Trochu jsem pátral, archive.org má sice zakázáno zdejší stránky archivovat, ale samotný robots.txt archivoval docela důsledně. Ke změně došlo přibližně 20. ledna 2007. Prošel jsem diskuse z té doby a nenašel jsem žádnou veřejnou zmínku vysvětlující dotyčnou změnu. Záhada asi zůstane záhadou.



Navrhuji tedy (zatím nedefinitivně) upravit robots.txt takto:
User-Agent: *
Disallow: /index.php?action=registernew
Disallow: /index.php?action=language
Disallow: /index.php?action=sendpass
Disallow: /index.php?sortBy
Disallow: /index.php?action=search
Disallow: /index.php?ldisc
Disallow: /index.php?action=stats
Disallow: /index.php?action=vtopic&forum=30
Disallow: /index.php?action=vthread&forum=30
Disallow: /?action=registernew
Disallow: /?action=sendpass
Disallow: /?sortBy
Disallow: /?action=search
Disallow: /?ldisc
Disallow: /?last
Disallow: /?action=bezreakci
Disallow: /?action=stats
Disallow: /?action=vtopic&forum=30
Disallow: /?action=vthread&forum=30
Kývnete mi na to někdo?
Str4wberry
Profil
Možná bych přidal:
Disallow: /?action=vtopic
Chamurappi
Profil
Reaguji na Str4wberryho:
Tím bychom asi odřízli docela důležitou větev pro dohledávání dalších vláken, ne?

Možná jsem tam neměl dávat ani tu ledovou kategorii. Řekl bych, že hlavním účelem souborů robots.txt je šetřit zátěž, tedy odehnat roboty od věcí, na které je nevhodné či zcela zbytečné posílat požadavky. To, jestli se má stránka ukazovat ve výsledcích, už je trochu jiná otázka, na kterou můžeme lépe odpovídat pomocí <meta name="robots">.
Str4wberry
Profil
Předpokládal jsem, že se Google dostane na vlákna přes poslední diskusi. Sice ano, ale časem je, zdá se, zapomene. Takže by to chtělo vytvořit mapu webu anebo opravit stránkování kategorií, protože témata na neodkazovatelných stranách vyhledávače zapomínají. Tohle bude zřejmě i příčina, proč Tě rozčiluje, když nemůžeš najít vlákno, u kterého přesně víš, kdo do něj psal a jaké formulace přibližně volil.

Takže pokud nevytvoříme mapu webu, tak „?action=vtopic“ nepřidávat. Pokud ji budeme mít, tak myslím, že už to pro dohledávání dalších vláken nebude potřeba.
Chamurappi
Profil
Reaguji na Str4wberryho:
pokud nevytvoříme mapu webu, tak ‚?action=vtopic‘ nepřidávat
Už jsem před pár hodinami poslal Yuhůovi verzi, která počítá s tím, že během dneška nevytvoříme mapu webu :-)
Není třeba oddalovat drobné změny. Až/jestli zavedeme mapu webu, předpokládám, že budeme moci robots.txt opět změnit.
Kajman_
Profil *
Chybí .sandbox, tam je taky zbytečné, aby chodily..
« 1 2 3 4 »

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0