« 1 2 3 4 »
Autor Zpráva
Jan Tvrdík
Profil
Kajman:
Chybí .sandbox, tam je taky zbytečné, aby chodily..
Od tamtud je přesměruje .htaccess
Kajman_
Profil *
I tak je to zbytečný požadavek ;-)
Chamurappi
Profil
Reaguji na Kajmana:
Proč? Mně nepřipadá vůbec zbytečný.
Kajman_
Profil *
Jaký je užitek z toho, že např. google bot se chce kouknout do sandoboxu, server mu řekne, že musí poslat heslo, bot mu řekne, že žádné nepošle a server mu pak dát přesměrovací stránku? Myslím, že pro diskuzi to žádný znatelný přínos nemá.
Chamurappi
Profil
Reaguji na Kajmana:
server mu řekne, že musí poslat heslo
Neřekne, každý, kdo má v User-Agentovi slovo „bot“, je přesměrován hned.
Kajman_
Profil *
Aha a z toho je jaký znatelný užitek? :-)
Chamurappi
Profil
Reaguji na Kajmana:
Že lze odkazovat se stejným efektem na sandbox jako na ostrou verzi diskuse. Pokud nějaká superdobře superhodnocená superstránka odkáže na adresu se sandboxem, váha se přenese na ostrou verzi, místo toho, aby se zahodila. Snad.

Jaký bude užitek z toho, že zakážeme situaci, kterou jsme už kdysi ošetřili?
Kajman_
Profil *
Ušetříme zase trošku výkonu. (Google a seznam si nové sandboxové url beztak zjišťují z jejich lištiček). Mně je to v celku jedno, jen mi přišlo, že tam chybí. A když by snad někdy takový odkaz vznikl, tak se dá robots.txt zase upravit... případně překousnout to, že bude ve vyhledávači odkaz bez obsahu.
Chamurappi
Profil

Poslední dobou narážím na čím dál víc případů, kdy moje paměť překonává index Googlu. Hledal jsem třeba jednoduchý odpočet času, věděl jsem, že tu bylo pěkné vlákno, kde jsme si povídali já a _es, a že tam padala slova jako „odpočet času“, „reaguji na _es“ a „getTimeZoneOffset“. Google ho není schopen najít. Také jsem hledal čtyři roky staré vlákno týkající se elementu <image>, které vzdáleně souviselo s nedávným dotazem. Marně. Ještě před rokem najít šlo. Nepříjemná tendence.

Zajímavé ovšem je, že obě zmíněná vlákna dokáže najít Seznam. Po pár zběžných pokusech mi připadá, že fulltext Seznamu indexuje tuto diskusi lépe než jeho nadnárodní konkurent. Škoda, že nemá JS API.
Str4wberry
Profil
To bude asi (jak už jsem psal) tím rozbitým stránkováním, kdy na některá vlákna prostě nevede žádný odkaz.

Mělo by smysl jednorázově vygenerovat sitemap?
Chamurappi
Profil
Reaguji na Str4wberryho:
Dříve ten současný způsob stránkování nevadil. Na vlákno o odpočtu z diskuse vedou čtyři odkazy (s rel="nofollow").

Mělo by smysl jednorázově vygenerovat sitemap?
Nevím. Možná.
Str4wberry
Profil
Teď koukám na to vlákno a ono je ještě na 39. stránce, takže je to dost podivné.

Zkusil jsem ji tedy vygenerovat a vznikl z toho 9MB drobeček s 97 tisíci adres, dá se to použít? :–)
Jan Tvrdík
Profil
Str4wberry:
dá se to použít?
Nejsem expert, ale vypadá to, že maximum url adres na jednu sitemapu je 50 000. Pokud jich je více, tak je potřeba to rozdělit do více sitemap. Maximální počet sitemap je také 50 000, takže celkový maximální počet url adres mi vychází na 2 500 000 000.


A Sitemap index can contain no more than 50,000 Sitemaps. Split your Sitemap index into multiple Sitemap index files and ensure that each contains no more than 50,000 Sitemaps. Then, resubmit your Sitemap index files individually.

A Sitemap can contain no more than 50,000 URLs. Split your Sitemap into multiple Sitemaps and ensure that each contains no more than 50,000 URLs. You can also use a Sitemap index to manage your Sitemaps. Then, submit your Sitemap index or your Sitemap files individually.

Takže to chce jen vhodně rozdělit.

Doplněno: Další čtení od Googlu
Chamurappi
Profil

Nový robots.txt je nasazený.
Kajman_
Profil *
Chamurappi:21.10.2009
Nový robots.txt je nasazený.
Nemůže s tím souviset zvýšený počet výpadků od začátku listopadu?

Jen je otázka, jestli tu zátěž generují roboti, nebo návštěvníci přicházející ze spousty nových vyhledávačů :-)
Chamurappi
Profil
Reaguji na Kajmana:
Výpadky jsou pravidelně v 00:15 a 12:15 a trvají vždy pět minut. Je pravděpodobné, že za ně může nějaký robot. Z logů by mělo jít vykoukat, který to je, a můžeme ho zakázat.
Těžko říct, co je příčina ostatních výpadků během dne, které jsou nepravidelné a čím dál častější.
Kajman_
Profil *
Mrkněte na sitemap.xml v sandboxu. Jednotlivé roky tam jsou v samostatných souborech, tak se to zatím vždy vešlo do limitu 50k linků i 10MB xml. Pokud je vlákno na více podstránkách, tak mají všechny nastaven čas modifikace na čas posledního příspěvku - výpočet času 30., 60 atd. by asi dost zdržoval a zas tak to asi nevadí.

Myslím, že hlavní přínos robotům bude právě to datum úpravy vlánka, aby věděly, že mají poslední verzi a nemusí na to chodit znovu.

Jednotlivé roky jsou nastavené na generaci po týdnu, poslední dva měsíce každý den a úplně ty nejnovější jsou přímo z db za posledních 24 hodin. Může se tedy za určitých okolností stát, že jeden odkaz může být třeba i ve třech sitemapách, pokaždé s jiným modifikačním časem - ale to snad taky nebude problém. Ty generované sitemapy mají také čas modifikace, tak snad robot vezme to nejaktuálnější.

U ledu má prioritu sníženou, vlákna, označená jako důležitá, zvýšenou.

Má cenu dávat do mapy i něco jiného než vlákna? Hlavní stránku, nápovědu, uživatele? Ještě někoho napadá, co by mohlo být jinak?

A když by se to použilo, tak by se možná hodilo uvést tu adresu v robots.txt jako sitemap:.
Kajman_
Profil *
Možná bych do robots.txt přidal i rozbalení uživatele...

/?action=userinfo&user=*&vse
Chamurappi
Profil
Reaguji na Kajmana:
Skvělá práce.

Má cenu dávat do mapy i něco jiného než vlákna? Hlavní stránku, nápovědu, uživatele?
Najít hlavní stránku i nápovědu snad zvládnou i ti nejhloupější boti. Mapa s adresami profilů se může hodit.

by se možná hodilo uvést tu adresu v robots.txt
Hotovo.

Možná bych do robots.txt přidal i rozbalení uživatele
Hotovo. I když si pořád myslím, že bychom se neměli pokoušet ladit výsledky ve vyhledávačích pomocí robots.txt. Ten výpis snad moc nezatěžuje databázi, ne?
Kajman_
Profil *
Mapa uživatelů v nově nasazené verzi je už také, ale nedělal jsem tam to "vse", proto mi přišlo, že by se to mohlo zakázat.

Výpis uživatele je jedna z nejpomalejších stránek (mimo hledání). Ale zatrhnutí "vse" tolik rychlost neovlivní. Myslím, že nejvíc tam zdržovalo neuvádění takových posledních příspěvků, co jsou i v posledních tématech.
Kajman_
Profil *
Tak to vypadá, že dotazy nepomohly. Co se navrátit k robots.txt, který povoloval jen vybrané vyhledávače s tím, že by se tam mohl přidat bing a yahoo? Nebo jestli půjde z logů vyčíst, který robot zlobí těch pět minut (nepřidala se tam i pětiminutovka po šesté?) třeba bude stačit zakázat jen jeho.
Chamurappi
Profil
Reaguji na Kajmana:
Nebo jestli půjde z logů vyčíst, který robot zlobí těch pět minut
Počkal bych na ty logy, pak se uvidí. Už by měly být na cestě. (Respektive cesta k nim je na cestě.)

(nepřidala se tam i pětiminutovka po šesté?)
Vypadá to tak.

třeba bude stačit zakázat jen jeho
A když nebude poslouchat, zakážeme ho nějak jinak?
Uvědomil jsem si, že pravidelné pětiminutové výpadky bývaly i dříve, ale v jiných časech (někdy kolem 11. a 23. hodiny). Je možné, že se v listopadu jen posunul čas výpadků do více navštěvované doby, a proto vypadá statistika děsivěji. Nicméně ty výpadky kolem osmnácté hodiny takto vysvětlit nejde.
Kajman_
Profil *
[#5] Chamurappi
Neřekne, každý, kdo má v User-Agentovi slovo „bot“, je přesměrován hned.
Ale až po tom, co dostane 401 - nutné přihlášení. Googlebot tedy uvádí požadavky do sandboxu v http chybách.

http://diskuse.jakpsatweb.cz/.sandbox/index.php?action=vthread&forum=10&topic=67404  	401 error 	Dec 14, 2009
DoubleThink
Profil *
Kajman:
Ale až po tom, co dostane 401 - nutné přihlášení. Googlebot tedy uvádí požadavky do sandboxu v http chybách.
Neměl by, bot by měl dostat rovnou 3xx hlavičku.
Kajman_
Profil *
Jo, je to divné, když si nastavím user agenta na googlebota, dostanu 301 hned. Když ho nemám, tak 401. V google webmaster tools tvrdí, že dostává 401, tak snad jedině, by tam tam zkoušel semtam jít i s jiným user agentem.
Kajman_
Profil *
Vypadá to, že dnes nebylo pětiminutové přetížení od 0:15, 6:15 ani 12:15. Čím by to mohlo být? robots.txt vypadá stejně.
Petr ZZZ
Profil
Jen taková myšlenka: Co když autor toho bota rozumí česky a čte zdejší diskuzi? Třeba něco ve svém výrobku upravil, aby ty problémy nebyly (nebo ho jen posílá v jiné časy). Nebo jeho bot dělal problémy i jinde, autor si všiml, že je všude zakazován a něco změnil. A ani česky neumí.
Kajman_
Profil *
To už jsou pravděpodobnější varianty...
- hosting ho už vypátral a odstřihnul
- věří uvedenému lastmod v nové sitemapě
Chamurappi
Profil
Reaguji na Petra ZZZ:
To jsou moc komplikované teorie. Těch hodných botů sem asi moc nechodí.


Reaguji na Kajmana:
robots.txt vypadá stejně
Všechno ostatní je také stejné.

Přemýšlím nad tím, který robot by mohl mít důvod k tak přesně načasovaným návštěvám. Žádný mě nenapadá. I u těch nejhloupějších vyhledávačů by měl být harmonogram indexování dynamicky generovaný samorost. Spíš to vypadá, že na stejném serveru, na kterém běží diskuse, běží i jiný web a ten má (či měl) naplánovanou nějakou náročnou údržbářskou akci s dvanáctihodinovým intervalem.

Googlebot tedy uvádí požadavky do sandboxu v http chybách.
Vadí to něčemu? (Snažím se do sandboxu neodkazovat. Všichni bychom se měli snažit.)

snad jedině, by tam tam zkoušel semtam jít i s jiným user agentem
Před pár měsíci jsem si všiml, že Google občas indexuje Geckem (se zapnutým JavaScriptem).
Petr ZZZ
Profil
Chamurappi:
Těch hodných botů sem asi moc nechodí.

Nemusí být hodný, může se snažit předejít odstřižení. Ale netvrdím, že je mé vysvětlení pravděpodobné.
« 1 2 3 4 »

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0