Autor Zpráva
Petr__
Profil *
Dobrý den,

pomocí mod_rewrite mám na svých (dynamicky v PHP generovaných) stránkách nastavené pěkné URL s rádoby adresářovou strukturou. Samozřejmě fakticky ty adresáře na serveru nejsou. Jenže ta má "adresářová struktura" ve skutečnosti není adresářová struktura, jen se tak tváří.

Např.: mám existující stránku s obsahem na www.example.com/x1/x2/x3, ale třeba na www.example.com/x1/x2 už nikde na webu neodkazuji, ani tam žádný obsah není a nikdy nebyl a není ani důvod aby na ni někdo odkázal, protože na ní fakt nic není. Tenkrát když jsem to mod_rewrite zaváděl jsem mohl použít i jiný oddělovač než lomítko (/), mohlo to být klidně www.example.com/x1-x2-x3. Prostě v těch "adresářích" (nebo chcete-li x1, x2, x3) jen předávám hodnoty proměnných.

Nicméně Yahoo, jako jediný z vyhledávačů, si sám "odvodil" a zaindexoval i URL jakoby "nadřazených adresářů" na které nikde neodkazuji. Nejde o náhodný jev, můj web má kolem 15000 stran a to co dělá Yahoo prostě vypadá systematicky a jde už o stovky stránek.

Setkali jste se s tím už někdo? Upřímně řečeno mě to docela zaskočilo a není to zrovna moc příjemné. Netušil jsem, že si tohle může vyhledávač "dovolit"?


P.S.: Pokud jsem to popsal moc zmateně, tak napište, zkusím to jinak :-).
quinux
Profil
Petr__
Teoreticky je možné, že robot prostě "zkouší" a pokud daná URL funguje (nevyhodí 404 ani nikam nepřesměruje), tak proč by ji nezaindexoval :) Zkus sem hodit odkaz na tvůj web a nějaký "špatný" výsledek na webu, třeba příjdem na chybu, kterou jsi přehlíd ;)
Ghosting
Profil
On je Yahoo je opravdu podivný. Na rel="nofollow" u odkazů kašle stejně jako na <meta name="robots" content="noindex,nofollow" />.Dost často se mi stávalo, že Yahoo vyklikával i ankety, (řešeny klasicky odkazem).
Marek Prokop
Profil
Petře, popsal jste to asi dobře, ale není mi jasné, na co se ptáte, resp. v čem je problém.

Ghostingu, Jak jste zjistil, že Yahoo kašle na rel="nofollow" a robots noindex, nofollow?
joe
Profil
Petr__
Když už máte adresářovou strukturu, nevidím důvod, proč adresa www.example.com/x1/x2/x3 je funkční, ale www.example.com/x1/x2 už ne. A o to hůř, pokud se jedná o nějaký e-shop a v těchto „adresářích“ jsou jen klíčová slova, resp. kategorie, ve kterých se to nachází. Pokud by šlo o kategorie, logicky by mělo v nadřazených adresářích něco být.
Petr__
Profil *
Díky za reakce.

quinux
Omlouvám se, že neuvedu odkaz na dotyčný web, ale raději bych to nechal jen v této "anonymní" rovině.

Marek Prokop
V čem je problém? Prakticky je problém v tom, že mi takto z Yahoo občas přijdou lidi na prázdnou stránku. Faktem je, že návštěvnost z tohoto vyhledávače je na mém webu mizivá, takže se zas tak nic strašného neděje.
Obecně mi pak jde o to, do jaké míry je tohle chování standardní? Řeknu-li to trochu volněji, tak z mého pohledu je to co dělá Yahoo poněkud "neslušné", když se snaží dostat někam, kam nebylo "pozváno".
A pokud pak navážu na joe
Když už máte adresářovou strukturu, nevidím důvod, proč adresa www.example.com/x1/x2/x3 je funkční, ale www.example.com/x1/x2 už ne.
tak já zase naopak nevidím důvod proč by na www.example.com/x1/x2 něco být mělo. Přece žádná taková automatická "povinnost" není. Navíc u mě opravdu nejde o kategorie, ty x1, x2, x3 prostě nemají takový smysl, aby mohly být svými (pod/nad)kategoriemi.

Vím, že chování Yahoo tady asi těžko někdo změní, jde mi jen o to, jestli tímhle už nepřekračuje rozumné meze.
Davex
Profil
Petr__
z Yahoo občas přijdou lidi na prázdnou stránku
Tím chceš říct, že přestože na stránce nic není, tak se objeví ve výsledcích hledání na Yahoo? To by se přece stávat nemělo.
ninja
Profil
Davex: z Yahoo občas přijdou lidi na prázdnou stránku

Pokud bude vase "prazdna" neexistujici stranka vracet korektne HTTP 404 Not Found, Yahoo ji jiste indexovat nebude. Pravdepodobne je chyba na vasi strane.

A to ze na takove URL neodkazujete vy, nci neznamena. Muze nekdo jiny.
Petr__
Profil *
Davex
Tím chceš říct, že přestože na stránce nic není, tak se objeví ve výsledcích hledání na Yahoo?
Ano, ale šlo jen o velmi malý počet případů spočitatelný na prstech jedné ruky, asi se ty prázdné stránky objevily ve vyhledávání jen velmi krátce.

ninja
Pokud bude vase "prazdna" neexistujici stranka vracet korektne HTTP 404 Not Found, Yahoo ji jiste indexovat nebude.
Jasně, ale

A to ze na takove URL neodkazujete vy, nci neznamena. Muze nekdo jiny.
1. kdo by odkazoval na stovky prázdných stránek?
2. pokud by na ty stránky fakt někdo odkazoval, je pravděpodobné, že by se k nim dostaly i roboti dalších vyhledávačů a ne jen Yahoo.
Petr__
Profil *
Zapomněl jsem to dokončit:

ninja
Pokud bude vase "prazdna" neexistujici stranka vracet korektne HTTP 404 Not Found, Yahoo ji jiste indexovat nebude.
Jasně, ale já jsem ten problém nezapříčinil, tak nevím proč by to teď měl za Yahoo "žehlit" :-) Asi to ale bude jediné možné řešení.
ninja
Profil
Petr__: pokud vas server odpovida na "nesmyslna" URL HTTP 200 ci podobne a ne pomoci 404, tak mate urcite problem i u jinych robotu, pouze to neprojde do vysledku hledani. je to pekna prasarna, takze je duvod zehlit.

Pokud stranka neexistuje ma se hlasit ze neexistuje, ne ze je prazdna.
Ghosting
Profil

Ghostingu, Jak jste zjistil, že Yahoo kašle na rel="nofollow" a robots noindex, nofollow?

Když jsem měl hosting u station.cz a AW Stats nebyly heslovany vesele je indexoval (i přes ten metatag). Když jsem měl anketu a u těch odkazů bylo rel="nofollow" tak je vyklikaval. (Yahoo pouziva vicero IP az potom jsem bloknul prvni dve pismena Z IP v .htaccess. Sice jsem odrovnal Yahoo, ale to me nejak nestvalo)
Davex
Profil
Ghosting
Stránky s meta robots noindex indexuje snad jen Jyxo. A parametr rel=nofollow by měl sloužit spíš k zabránění přenosu ranku, takže jsi od něj očekával asi něco jiného.
Petr__
Profil *
ninja
Prázdnou stránkou myslím funkční html stránku, jen bez obsahu. Čili obsahuje všechny potřebné statndardně používané html tagy, akorát v
<body></body>
není žádný obsah (ten se prostě nenačte, právě proto, že uvedeným chováním Yahoo nedojde k předání všech potřebných hodnot proměnných)

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0