Diskuse JPW: Indexace Seznamem

	Autor	Zpráva
	LeGuardian Profil *	#1 · Zasláno: 19. 8. 2011, 10:27:12 Odpovědět Citovat Dobrý den, zajímaly by mně zkušenosti diskutujících s indexováním webů Seznamem v kontrastu s indexací Googlem. Demonstruji na reálném příkladu: www.ceske-hospudky.cz. Pominu-li grafickou úroveň projektu, má web veškeré dispozice k dobré indexaci oběma vyhledávači - na doméně jede přes 8 let, má na české poměry relativně hodně zpětných odkazů z velkého množství unikátních domén, má rozumný on-page základ, není účasten žádných podezřelých výměnných systémů. Přesto zatímco Google indexoval cca 150.000 stránek, Seznam dle tvrzení klienta dlouhodobě drží hranici 3.000 - 4.000 stránek. Zkusmo se zařadil affiliate box Skliku, o němž někteří tvrdí, že indexaci podporuje, ovšem bez výrazné změny. Budu vděčný za náměty či rady, jak přimět Seznam nabízet ve vyhledávání více výsledků z tohoto webu :-)
	Plaváček Profil	#2 · Zasláno: 19. 8. 2011, 10:39:03 Odpovědět Citovat LeGuardian: Viz vysvětlení přímo od zdroje: http://fulltext.sblog.cz/2011/08/17/60
	helpik.JPW Profil	#3 · Zasláno: 19. 8. 2011, 18:57:33 Odpovědět Citovat Plaváček: přesně tak, dobrý zdroj ;) *LeG: máte pravdu. Ceske-hospudky jsou dobře zaindexované v G. a S. je malinko opomijí - viz link Plaváčka. Nejste ale sám, kdo toto řeší, ale vesměs se to řešit přiliš asi nedá (teda pokud tomu člověk alepoň trochu rozumí a ví o čem web je a nedělá "beďarovité" weby). Doporučím klasické věci: - snažit se o unikátnost - robots.txt - já mám nastaven pro SeznamBot3 pro web, kde chci pokud možno idexovat vše User-agent: Seznambot Disallow: -- uvézd sitemapu** (možnost označit, co se aktualizuje častěji) --- abosultní adresa --- dle specifikace max 10 MB (v dekomprimovaném stavu), nebo 50 000 URL (před chvílí jsem to vyhledal) - zkontrolovat přesměrování (redirect, 301) u neindexovaných stránek - SeznamBot3 vylučuje stránku z indexace, pokud stránka 3x po sobě má problémy technické rázu (výpadek serveru, přesměrování apod) - na stránce mít v meta robots index, follow, all - kanonické odkazy (zdůležitění odkazu) - kdysy jsem o tom četl od SEO mága Cutse i ve videokonferencích G., ale na webech jsem je ani jednou nepoužil = nemohu potvrdit/vyloučit poznatky - pokud už opravdu nevíš nezbývá než -- http://search.seznam.cz/pridej-stranku a zkusit opětovně přidat web, případně jednotlivé neindexované stránky (práce nic moc, záruka žádná, pomoci občas může) -- u neindexovaných stránek změň popisek (práce nic moc, záruka žádná, občas pomůže) PS: škoda, že zde není možnost vkládat seznam <li> .) PS2: Budu rád, když se k tomu vyjádří víc lidí, pač víc lidí víc ví a nemohu říct, že jsem vědátor, věštec ale ani blbec ;) Krom toho, určitě tyhle vlákna čte mnoho lidí, které nenapíší nic a tím to je zvu :P
	Davex Profil	#4 · Zasláno: 19. 8. 2011, 19:07:02 · Upravil/a: Davex Odpovědět Citovat helpik.JPW: „- na stránce mít v meta robots index, follow, all“ Tyto volby se předpokládají jako výchozí a není třeba je uvádět. „PS: škoda, že zde není možnost vkládat seznam <li> .)“ Od toho je tu klávesová mapa (Control-šipka dolů » Funkce » Seznamy).
	helpik.JPW Profil	#5 · Zasláno: 20. 8. 2011, 02:06:59 Odpovědět Citovat Davex: „Tyto volby se předpokládají jako výchozí a není třeba je uvádět.“ Máš pravdu, ale také to neuškodí. Navic je to jednoduchý jeden řádek a většinou se generuje na celá web ... 5 min ;) „klávesová mapa“ O téhle možnosti jsem nevěděl. Chvíli potrvá jestli si na to zvyknu ;)
	jenikkozak Profil	#6 · Zasláno: 20. 8. 2011, 07:40:23 Odpovědět Citovat helpik.JPW: „Máš pravdu, ale také to neuškodí. Navic je to jednoduchý jeden řádek a většinou se generuje na celá web ... 5 min ;)“ Ale jeho účinnost bude asi stejná jako u následujícího řádku: <!--Héj, robote, nekašli na moje stránky, nebo budu používat jiný vyhledavač, tentokrát to myslím fakt vážně!--> Kdyby Seznam ignoroval stránky bez těch výše uvedených metatagů, měl by opomíjet i hlavní stránku Seznamu. Totéž platí i pro soubor robots.txt. Pokud jím člověk nechce přístup robotům omezit, nemá jeho (toho souboru) existence jiný význam kromě toho, že přestane vracet chybu 404.
	helpik.JPW Profil	#7 · Zasláno: 21. 8. 2011, 02:11:43 Odpovědět Citovat jenikkozak: "učinist meta robots" Nemám vyzkoušeno, zda je lepší meta robots neuvádět. U většiny webů ho k vidění najdu. „Totéž platí i pro soubor robots.txt. Pokud jím člověk nechce přístup robotům omezit, nemá jeho (toho souboru) existence jiný význam kromě toho, že přestane vracet chybu 404.“ robots.txt doporučuji už z toho důvodu, že web má většinou adresáře (např. administrace) ve kterých indexování příliš nedoporučuji
		Časová prodleva: 8 dní
	Mautinek Profil	#8 · Zasláno: 29. 8. 2011, 00:31:20 Odpovědět Citovat robots.txt se doporučuje vytvářet i v případě, že v něm bude jen User-agent: * Disallow: Viz http://www.youtube.com/watch?v=P7GY1fE5JQQ
	DoubleThink Profil *	#9 · Zasláno: 29. 8. 2011, 00:34:22 Odpovědět Citovat Mautinek: „robots.txt se doporučuje vytvářet i v případě, že v něm bude jen“ Nesmysl - i v tom videu je to řečeno. Pokud server vrací 404, je vše v pořádku.
	Mautinek Profil	#10 · Zasláno: 29. 8. 2011, 09:39:52 Odpovědět Citovat DoubleThink: já ve videu slyším, že Matt doporučuje vytvořit buď prázdný, nebo lépe "vyplněný" robots.txt. Nemít vůbec tento soubor je "little bit risky".
	Chamurappi Profil	#11 · Zasláno: 29. 8. 2011, 10:12:34 Odpovědět Citovat Reaguji na Mautinka: Mít nekontrolovanou čtyřistačtyřku může být riskantní. Mít čtyřistačtyřku syntakticky kompatibilní s `robots.txt`, která je ve skutečnosti dvoustovkou, je nebezpečné, ale i výrazně nepravděpodobné. Chtěl bych vidět nějaký reálný příklad situace, kdy chybějící `robots.txt` na jinak správně fungujícím serveru způsobil problém.
	Petr ZZZ Profil	#12 · Zasláno: 29. 8. 2011, 10:13:23 Odpovědět Citovat helpik.JPW: „robots.txt doporučuji už z toho důvodu, že web má většinou adresáře (např. administrace) ve kterých indexování příliš nedoporučuji“ Zda je `robots.txt` pro SEO dobrý či špatný, nevím, ale zakazovat indexaci administrace v `robots.txt` je jako pozvánka pro potenciální útočníky, aby se pokusili do administrace dostat - zmínkou v `robots.txt` každému říkáš "zde je adresa". Pokud nevede do administrace odnikud odkaz, nemá se robot jak dozvědět adresu a to je jedině dobře. Neodkazuj na administraci a nebude indexována. Chci-li administraci robotům formálně zakázat, potom bych to napsal do hlavičky stránky administrace, ale ne do `robots.txt`.
	DoubleThink Profil *	#13 · Zasláno: 29. 8. 2011, 15:42:45 Odpovědět Citovat Mautinek: Upřímně, nedovedu si představit, že by existoval tak špatně napsaný robot, který by ze syntakticky nevalidních robots.txt dat vyvodil nějaké restriktivní závěry. Všechny tyto žvásty jsou jen urban-legends a je smutné, že je šíří i odborníci. A na argument "i kdyby to zachránilo jediný život" už jsem dost alergický - celý vesmír funguje na intervalu pravděpodobnosti (0;1) bez těchto krajních hodnot.
	ludekbrno Profil *	#14 · Zasláno: 29. 8. 2011, 20:36:53 Odpovědět Citovat helpik.JPW: „robots.txt doporučuji už z toho důvodu, že web má většinou adresáře (např. administrace) ve kterých indexování příliš nedoporučuji“ Jeden z oblíbených a nesmyslných postupů, vyjmenovat v robots.txt s parametrem disallow všechny neveřejné složky. 1) jak bylo řečeno, potencionálním útočníkům na stříbrném podnose naservíruješ strukturu složek a ukážeš mu přesně, kam se má pokoušet prolomit 2) pokud na ty neveřejné složky nevede z veřejné části webu žádný odkaz (jakože je rozumné, aby nevedl), tak se o nich robot vyhledávače nemá jak dozvědět a tedy ani ho nenapadne je indexovat. Není tedy důvod jejich indexaci zakazovat.
	Mautinek Profil	#15 · Zasláno: 30. 8. 2011, 17:14:51 Odpovědět Citovat DoubleThink: však já netvrdím, že špatná syntaxe v robots.txt budou vyhledávače "chápat" nebo ne. Jen říkám, že je lepší, tento soubor pro každý web vytvořit.
	DoubleThink Profil *	#16 · Zasláno: 30. 8. 2011, 17:24:33 Odpovědět Citovat Mautinek: „Jen říkám, že je lepší, tento soubor pro každý web vytvořit.“ Což je nesmysl - protože je to v praxi totéž, jako když tam žádný není.
	Chamurappi Profil	#17 · Zasláno: 30. 8. 2011, 17:25:26 Odpovědět Citovat Reaguji na Mautinka: Odkázaný Matt tvrdí, že vyhledávač může být tak hloupý, že špatně napsanou chybovou HTML stránku vyhodnotí jako platný `robots.txt`. Což je tak moc nepravděpodobné, že to jako podpěra pro tvrzení „je lepší tento soubor pro každý web vytvořit“ neobstojí. Proč je to tedy lepší? Reaguji na ludkabrno: „Není tedy důvod jejich indexaci zakazovat.“ Ono na nich zpravidla ani nebývá nic zajímavého k indexování. I když je zaindexuje, tak na ně patrně nikoho nepošle.
	Mautinek Profil	#18 · Zasláno: 30. 8. 2011, 18:07:09 Odpovědět Citovat Chamurappi: naopak, pro mě to je signál, proč robots.txt vytvářet. Proč si přidělávat případné další starosti, když vytvoření souboru zabere tak minutu i s nahráním na server.
	Chamurappi Profil	#19 · Zasláno: 30. 8. 2011, 18:11:22 Odpovědět Citovat Reaguji na Mautinka: Protože zbytečná práce je zbytečná. Jaké případné starosti si přiděláš jeho nevytvořením?
	Mautinek Profil	#20 · Zasláno: 30. 8. 2011, 23:09:06 Odpovědět Citovat Chamurappi: např. tu, když si uživatel upraví 404 stránku tak, jak jsi psal výše. Pokud mi tato "práce" zabere do 1min, tak i kdyby byla zbytečná, tak bych to příliš neřešil (pokud to není opakované). Vezmi si, kolik souborů robots.txt jsme mohli vytvořit za dobu naší diskuze. :-)
		Časová prodleva: 14 let

Vaše odpověď

Mohlo by se hodit