Autor Zpráva
LeGuardian
Profil *
Dobrý den,

zajímaly by mně zkušenosti diskutujících s indexováním webů Seznamem v kontrastu s indexací Googlem. Demonstruji na reálném příkladu: www.ceske-hospudky.cz. Pominu-li grafickou úroveň projektu, má web veškeré dispozice k dobré indexaci oběma vyhledávači - na doméně jede přes 8 let, má na české poměry relativně hodně zpětných odkazů z velkého množství unikátních domén, má rozumný on-page základ, není účasten žádných podezřelých výměnných systémů.

Přesto zatímco Google indexoval cca 150.000 stránek, Seznam dle tvrzení klienta dlouhodobě drží hranici 3.000 - 4.000 stránek. Zkusmo se zařadil affiliate box Skliku, o němž někteří tvrdí, že indexaci podporuje, ovšem bez výrazné změny.

Budu vděčný za náměty či rady, jak přimět Seznam nabízet ve vyhledávání více výsledků z tohoto webu :-)
Plaváček
Profil
LeGuardian:

Viz vysvětlení přímo od zdroje: http://fulltext.sblog.cz/2011/08/17/60
helpik.JPW
Profil
Plaváček:
přesně tak, dobrý zdroj ;)

LeG*:
máte pravdu. Ceske-hospudky jsou dobře zaindexované v G. a S. je malinko opomijí - viz link Plaváčka. Nejste ale sám, kdo toto řeší, ale vesměs se to řešit přiliš asi nedá (teda pokud tomu člověk alepoň trochu rozumí a ví o čem web je a nedělá "beďarovité" weby).

Doporučím klasické věci:
- snažit se o unikátnost

- robots.txt - já mám nastaven pro SeznamBot3 pro web, kde chci pokud možno idexovat vše
User-agent: Seznambot
Disallow: 

-- uvézd sitemapu (možnost označit, co se aktualizuje častěji)
--- abosultní adresa
--- dle specifikace max 10 MB (v dekomprimovaném stavu), nebo 50 000 URL (před chvílí jsem to vyhledal)

- zkontrolovat přesměrování (redirect, 301) u neindexovaných stránek - SeznamBot3 vylučuje stránku z indexace, pokud stránka 3x po sobě má problémy technické rázu (výpadek serveru, přesměrování apod)

- na stránce mít v meta robots index, follow, all

- kanonické odkazy (zdůležitění odkazu) - kdysy jsem o tom četl od SEO mága Cutse i ve videokonferencích G., ale na webech jsem je ani jednou nepoužil = nemohu potvrdit/vyloučit poznatky


- pokud už opravdu nevíš nezbývá než
-- http://search.seznam.cz/pridej-stranku a zkusit opětovně přidat web, případně jednotlivé neindexované stránky (práce nic moc, záruka žádná, pomoci občas může)
-- u neindexovaných stránek změň popisek (práce nic moc, záruka žádná, občas pomůže)

PS: škoda, že zde není možnost vkládat seznam <li> .)
PS2: Budu rád, když se k tomu vyjádří víc lidí, pač víc lidí víc ví a nemohu říct, že jsem vědátor, věštec ale ani blbec ;) Krom toho, určitě tyhle vlákna čte mnoho lidí, které nenapíší nic a tím to je zvu :P
Davex
Profil
helpik.JPW:
- na stránce mít v meta robots index, follow, all
Tyto volby se předpokládají jako výchozí a není třeba je uvádět.

PS: škoda, že zde není možnost vkládat seznam <li> .)
Od toho je tu klávesová mapa (Control-šipka dolů » Funkce » Seznamy).
helpik.JPW
Profil
Davex:
Tyto volby se předpokládají jako výchozí a není třeba je uvádět.
Máš pravdu, ale také to neuškodí. Navic je to jednoduchý jeden řádek a většinou se generuje na celá web ... 5 min ;)

klávesová mapa
O téhle možnosti jsem nevěděl. Chvíli potrvá jestli si na to zvyknu ;)
jenikkozak
Profil
helpik.JPW:
Máš pravdu, ale také to neuškodí. Navic je to jednoduchý jeden řádek a většinou se generuje na celá web ... 5 min ;)
Ale jeho účinnost bude asi stejná jako u následujícího řádku:
<!--Héj, robote, nekašli na moje stránky, nebo budu používat jiný vyhledavač, tentokrát to myslím fakt vážně!-->

Kdyby Seznam ignoroval stránky bez těch výše uvedených metatagů, měl by opomíjet i hlavní stránku Seznamu.

Totéž platí i pro soubor robots.txt. Pokud jím člověk nechce přístup robotům omezit, nemá jeho (toho souboru) existence jiný význam kromě toho, že přestane vracet chybu 404.
helpik.JPW
Profil
jenikkozak:
"učinist meta robots"
Nemám vyzkoušeno, zda je lepší meta robots neuvádět. U většiny webů ho k vidění najdu.

Totéž platí i pro soubor robots.txt. Pokud jím člověk nechce přístup robotům omezit, nemá jeho (toho souboru) existence jiný význam kromě toho, že přestane vracet chybu 404.
robots.txt doporučuji už z toho důvodu, že web má většinou adresáře (např. administrace) ve kterých indexování příliš nedoporučuji
Mautinek
Profil
robots.txt se doporučuje vytvářet i v případě, že v něm bude jen
User-agent: *
Disallow:

Viz http://www.youtube.com/watch?v=P7GY1fE5JQQ
DoubleThink
Profil *
Mautinek:
robots.txt se doporučuje vytvářet i v případě, že v něm bude jen
Nesmysl - i v tom videu je to řečeno. Pokud server vrací 404, je vše v pořádku.
Mautinek
Profil
DoubleThink:
já ve videu slyším, že Matt doporučuje vytvořit buď prázdný, nebo lépe "vyplněný" robots.txt. Nemít vůbec tento soubor je "little bit risky".
Chamurappi
Profil
Reaguji na Mautinka:
Mít nekontrolovanou čtyřistačtyřku může být riskantní. Mít čtyřistačtyřku syntakticky kompatibilní s robots.txt, která je ve skutečnosti dvoustovkou, je nebezpečné, ale i výrazně nepravděpodobné. Chtěl bych vidět nějaký reálný příklad situace, kdy chybějící robots.txt na jinak správně fungujícím serveru způsobil problém.
Petr ZZZ
Profil
helpik.JPW:
robots.txt doporučuji už z toho důvodu, že web má většinou adresáře (např. administrace) ve kterých indexování příliš nedoporučuji
Zda je robots.txt pro SEO dobrý či špatný, nevím, ale zakazovat indexaci administrace v robots.txt je jako pozvánka pro potenciální útočníky, aby se pokusili do administrace dostat - zmínkou v robots.txt každému říkáš "zde je adresa". Pokud nevede do administrace odnikud odkaz, nemá se robot jak dozvědět adresu a to je jedině dobře. Neodkazuj na administraci a nebude indexována. Chci-li administraci robotům formálně zakázat, potom bych to napsal do hlavičky stránky administrace, ale ne do robots.txt.
DoubleThink
Profil *
Mautinek:
Upřímně, nedovedu si představit, že by existoval tak špatně napsaný robot, který by ze syntakticky nevalidních robots.txt dat vyvodil nějaké restriktivní závěry.
Všechny tyto žvásty jsou jen urban-legends a je smutné, že je šíří i odborníci. A na argument "i kdyby to zachránilo jediný život" už jsem dost alergický - celý vesmír funguje na intervalu pravděpodobnosti (0;1) bez těchto krajních hodnot.
ludekbrno
Profil *
helpik.JPW:
robots.txt doporučuji už z toho důvodu, že web má většinou adresáře (např. administrace) ve kterých indexování příliš nedoporučuji

Jeden z oblíbených a nesmyslných postupů, vyjmenovat v robots.txt s parametrem disallow všechny neveřejné složky.

1) jak bylo řečeno, potencionálním útočníkům na stříbrném podnose naservíruješ strukturu složek a ukážeš mu přesně, kam se má pokoušet prolomit

2) pokud na ty neveřejné složky nevede z veřejné části webu žádný odkaz (jakože je rozumné, aby nevedl), tak se o nich robot vyhledávače nemá jak dozvědět a tedy ani ho nenapadne je indexovat. Není tedy důvod jejich indexaci zakazovat.
Mautinek
Profil
DoubleThink:
však já netvrdím, že špatná syntaxe v robots.txt budou vyhledávače "chápat" nebo ne. Jen říkám, že je lepší, tento soubor pro každý web vytvořit.
DoubleThink
Profil *
Mautinek:
Jen říkám, že je lepší, tento soubor pro každý web vytvořit.
Což je nesmysl - protože je to v praxi totéž, jako když tam žádný není.
Chamurappi
Profil
Reaguji na Mautinka:
Odkázaný Matt tvrdí, že vyhledávač může být tak hloupý, že špatně napsanou chybovou HTML stránku vyhodnotí jako platný robots.txt. Což je tak moc nepravděpodobné, že to jako podpěra pro tvrzení „je lepší tento soubor pro každý web vytvořit“ neobstojí. Proč je to tedy lepší?


Reaguji na ludkabrno:
Není tedy důvod jejich indexaci zakazovat.
Ono na nich zpravidla ani nebývá nic zajímavého k indexování. I když je zaindexuje, tak na ně patrně nikoho nepošle.
Mautinek
Profil
Chamurappi:
naopak, pro mě to je signál, proč robots.txt vytvářet. Proč si přidělávat případné další starosti, když vytvoření souboru zabere tak minutu i s nahráním na server.
Chamurappi
Profil
Reaguji na Mautinka:
Protože zbytečná práce je zbytečná. Jaké případné starosti si přiděláš jeho nevytvořením?
Mautinek
Profil
Chamurappi:
např. tu, když si uživatel upraví 404 stránku tak, jak jsi psal výše. Pokud mi tato "práce" zabere do 1min, tak i kdyby byla zbytečná, tak bych to příliš neřešil (pokud to není opakované). Vezmi si, kolik souborů robots.txt jsme mohli vytvořit za dobu naší diskuze. :-)

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0