Autor Zpráva
fe_fa
Profil *
Ahoj,

doslechl jsem se, že googlebot nebere stránky, které jsou v xhtml (1.0 i 1.1), že indexuje pouze standartní html, mohl by mi někdo říci, co je ve skutečnosti pravda?

Zdá se mi to totiž trošku stupidní, ale i tak bych se rád poradil...

Díky za odpověď
quinux
Profil
fe_fa
Pokud tu stránku posíláš s MIME type "text/html" což určitě posíláš, tak se nic neděje. Pokud bys použil "application/xhtml+xml" tak by asi problém byl.
Timy
Profil
fe_fa
Zrovna google to nějak indexuje. Ještě komentář od autora pokusu.

Každopádně lépe budou vyhledávače indexovat tet/html než některý z XHTML MIME
Chamurappi
Profil
Reaguji na fe_fu:
Kde ses o tom doslechl?

Googlebot skutečně nemá rád XHTML. Posíláš-li stránku s typem „text/html“, rozebírá ji pochopitelně HTML parserem a máš v podstatě štěstí, že ti ty vady v kódu přehlíží. Stejně jako prohlížeče.

Zdá se mi to totiž trošku stupidní
Proč? Od pradávna na WWW platí, že webová stránka = HTML stránka. Jiné typy zdrojů jsou cosi speciálního, pro co na straně webového klienta nemusí být podpora. Z tohoto pohledu je na tom XHTML úplně stejně jako dokumenty v PDF, RTF nebo DOC.


Reaguji na Timyho:
Ještě by bylo zajímavé prověřit stavy, kdy je výstup XML procesoru jiný než výstup HTML parseru při stejném kódu. Kdyby si nějaký robot řekl „tenhle MIME typ neznám, zkusím ho uhodnout“ a pustil na něj HTML parser, znamená to, že se také podporou XHTML nezdržuje.
U Googlu to při pohledu na HTML verzi „Striktně shodného!“ vypadá, že si neznámý typ souboru zkusí něčím zobrazit, výsledek vyfotí a prožene skrze OCR, které mu vyplivne HTML. Jenže to by tam pak nebyl funkční odkaz. Divné. Žádá si bližší průzkum. Kdo se toho ujme?
Bubák
Profil
HTML soubory si google dává do archívu, Striktně shodný! v archívu není, podobně, jako *.pdf, *.doc, ...
llook
Profil
Kterýkoli rozšířený vyhledávač cokoli s MIME typem text/html bere jako HTML dokument a tak ho taky parsuje, stejně jako to dělají prohlížeče.

S MIME typem application/xhtml+xml je to kdovíjaké. MSN a Jyxo tomu porozumí, Google se tváří, že nerozumí, ale zjevně aspoň trochu rozumí, což je pro mě novinka. Ještě by bylo vhodné vyzkoušet, jestli MSN a Jyxo porozumí invalidnímu application/xhtml+xml (byla by sranda, kdyby zaindexovali žlutou obrazovku smrti), ale na to nemám náladu.

Bubák
Do archivu si ale dává HTML verzi.
Toto téma je uzamčeno. Odpověď nelze zaslat.