Autor Zpráva
Pavel Straka
Profil
Dobrý večer, rád bych poprosil zkušenější o radu.
Z webu jednoduchým PHP skriptem generuji soubor sitemap.xml - jak pro webové stránky, tak pro obrázky.
Dle Google Webmastertools jsou záznamy odeslány, ale nejsou zaindexovány. Např. u webových stránek je odesláno 4 000 a zaindexováno jen 25, u obrázků odesláno 8000, zaindexován není žádný.
Ve Webmastertools se objevuje jedno varování:
Při testování vzorových adres URL z vašeho souboru Sitemap jsme zjistili, že některé adresy URL byly nedostupné. Zkontrolujte prosím případné chyby v konfiguraci svého webového serveru, jelikož tyto chyby mohou být způsobeny chybou serveru (jako například chyba 5xx) nebo chyba sítě mezi prohledávačem Googlebot a vaším serverem. Všechny dostupné adresy URL budou odeslány.
U tohoto varování je uveden příklad, ale ta URL je funkční. Varování je už měsíc staré. Když zkusím "otestovat soubor Sitemap", je v pořádku.
Kde může být problém?

Děkuji všem za ochotu.
rafej
Profil
Problém může být pomalé načítání stránky, přetížení serveru nebo že se Googlebot trefí zrovna do času údržby.
petrxxx
Profil
V Google Webmaster Tools: Procházení -> Chyby procházení -- co tam vidíte?

Aktivujte si pro svoji doménu reporty i v MajesticSEO.com a podívejte se, zda a jak se chytají ostatní crawlery.
Cody
Profil
Pavle a operátor site: říká co?
Pavel Straka
Profil
petrxxx: V "Chyby procházení" vidím 350 "falešných 404" chyb. Zde by zřejmě mohl být zakopaný pes? Problém je asi v tom, že v případě chyby 404 je uživateli zobrazena chybová stránka, ale vrácený HTTP kód je 200. Jaký je prosím vhodný způsob, jak korektně vrátit kód 404, ale zároveň uživateli zobrazit uživatelsky přívětivou stránku s chybovou hláškou? Děkuji za pomoc.
Cody: Máte na mysli vyhledání v Googlu takto: "site:adresawebu.cz"? V tom případě Google vrátí 27 000 výsledků.
Děkuji Vám za ochotu.
grimword
Profil
Web má 27 000 podstránek čeho? Obrázků?

Google neindexuje stránky, které mu nepřipadají hodnotné. Pokud je to například nějaký web na sdílení vtipných fotek, které byly okopírovány z internetu, tak Google už je má zaindexované na silnějších webech. Tu tvoji kopii nebude indexovat. A zaindexuje např. 10% webu a hotovo.
Homer
Profil
Pavel Straka:
Jaký je prosím vhodný způsob, jak korektně vrátit kód 404, ale zároveň uživateli zobrazit uživatelsky přívětivou stránku s chybovou hláškou?

Vytvoř si uživatelsky přívětivou stránku s chybovou hláškou. Její zobrazování při chybě si nastav v .htaccess. Třeba takhle:
ErrorDocument 404 /uzivatelsky-privetiva-stranka-s-chybovou-hlaskou.php
Pavel Straka
Profil
Jedná se o klasický inzertní web. Rozumím, že pokud by šlo o nějaké kopie, nebude na ně Google brát zřetel. Ale to, že Google dle Webmastertools indexuje jen necelé 1% stránek a 0 obrázků je pro mě podivné. Co se týče toho nastavení "chybové stránky" v .htaccess - přesně takto jsem to měl nastavené a včera jsem se dočetl, že to není korektní způsob. Pokud je to tedy správně, čím by, prosím, mohly být způsobeny ty "Falešné 404 chyby": (Cílová adresa URL neexistuje, ale server nevrací chybu 404 (Soubor nenalezen).
Děkuji všem.
rafej
Profil
Proč to není korektní způsob?

Ty chyby mohou být způsobeny tím, že pokud používáš přepisování adres a stránka se automaticky generuje, tak musí mít skript také nějaký mechanismus, jak ověřit existenci stránky. Ať už to udělá na základě nějakého nastavení nebo informace získává z menu či hledá specifický obsah, tak při neexistenci by měl správně odeslat chybovou hlavičku 404.
To se bohužel u některých systémů neděje a i když zobrazují přívětivou stránku s chybou pro uživatele, tak prohlížeči zároveň posílají kód 200, že je vše v pořádku.
Někdy podobnou chybu může způsobit i nastavení hostingu, a to v případě, že nemáš nastavenou svou chybovou stránku nebo nastavení nefunguje, tak místo chybové stránky cpou vlastní stránky s reklamou.
Homer
Profil
Pavel Straka:
včera jsem se dočetl, že to není korektní způsob.

Uveď zdroj.
Pavel Straka
Profil
rafej: Díky moc, opravdu byl problém v tomto, opravil jsem to. Jak přibližně dlouho může trvat, než Google opět projde sitemap a ty chyby s falešnými 404 zmizí? Děkuji.
rafej
Profil
To se nedá říct. Google má nějaký svůj interní rozvrh, na základě kterého si určuje četnost procházení, ale jak to přesně funguje není známo. Předpokládá se, že hlavně jde o četnost aktualizace stránek na webu. Může to ale ovlivňovat množství dalších vlivů - právě počet chyb na stránce, rychlost, jakou majitel stránky chyby řeší, počet návštěvníků, kteří přicházejí z vyhledávání nebo sociálních sítí, vytížení robota atd.
Být tebou, tak Google robota trochu postrčím. V rozhraní webmaster tools si přejdi na záložku Chyby procházení a proklikej si adresy s chybou. U každé z nich použij Načíst jako Googlebot a zkontroluj výsledek. Pokud budou v pořádku, tak se tím odešlou do indexování. Až budou všechny načtené, tak se vrať na Chyby procházení a klidně hromadně je označ jako opravené.
To by mělo vše urychlit.
Pavel Straka
Profil
Děkuji. Proklikávám ty adresy s chybou a načítám všechny jako Google, výsledek je ale vždy Nenalezeno. To je ale asi v pořádku, protože před tím to byly falešné chyby 404 a nyní to jsou skutečné chyby 404?
Každopádně nikde nevidím možnost označit chyby jako opravené, může to být tím, že mám jen omezený přístup do webmastertools?
Děkuji.
rafej
Profil
Pokud víte, že cílová stránka má končit chybou, protože neexistuje, tak je to OK. Označovat za opravené už nemusíte a ani nemůžete.
Pokud byla chyba jen dočasná - přetížení serveru nebo chyba ve skriptu, tak se právě ověří funkčnost a označí jako opravené.
Pavel Straka
Profil
Dobrý večer, ozývám se po pár dnech s prosbou o další radu. Bohužel žádná změna k lepšímu, stále je zaindexováno jen okolo 20 stránek z 4 500 odelsaných a 0 obrázků. Ty falešné chyby 404 se zastavily na stejném počtu - poslední falešná 404 je evidována už 4 dny zpět, nicméně pořád ty falešné chyby 404 nezmizely z Procházení - chyby procházení a jak jsem psal hlavně pořád nejsou zaindexované ty stránky.

Pořád se ve Webmastertools také ukazuje ta chyba "Při testování vzorových adres URL z vašeho souboru Sitemap jsme zjistili, že některé adresy URL byly nedostupné...".

Kde by prosím mohl být problém?

Napadlo mě, zda nemůže být v tom, že web má 2 jazykové mutace - každá s vlastní doménou (XX.CZ a XX.SK) a přes .htaccess řeším zpracování příslušných sitemap tímto způsobem:
RewriteCond %{HTTP_HOST} ^(www\.)?xx\.sk$ [NC]
RewriteRule ^sitemap\.xml$ sitemap_sk.xml [L]
petrxxx
Profil
Zkuste si chybné stránky v Google Webmaster Tools ručně promazat ("označit za opravené") a sledujte, zda se opět objeví

"Některé adresy byly nedostupné" -- takže v průběhu pokusu o načtení Googlebotem byla webová aplikace chcíplá. Nebo celý hosting => zkonzultovat s poskytovatelem webhostingu, co se stalo

A ještě ocituji sám sebe: Aktivujte si pro svoji doménu reporty i v MajesticSEO.com a podívejte se, zda a jak se chytají ostatní crawlery.
Pavel Straka
Profil
Zdravím, děkuju za pomoc.
Prosím o informaci, jak ručně promazat ty chybné stránky - možnost "označit za opravené" ve Webmastertools nevidím. Je možné, že možnost nevidím, protože mám do Webmastertools jen omezený přístup? Hledám možnost správně v Procházení - Chyby procházení?

Problém jsem konzultoval s webhostingem - dle jejich reakce není u nich žádný problém a ani nevědí, čím by to mohlo být způsobeno, mám se prý obrátit přímo na Google.

Je pravděpodobné, že je problém způsoben tím, že web má 2 jazykové verze (českou a slovenskou) - každou ale s vlastními kategoriemi inzerce a vlastními inzeráty? Přesto je možné, že Google považuje stránky za podobné/duplicitní a nebere na ně zřetel? Na stejném inzertním systému (je to vlastní řešení OOP PHP + šablony Smarty) jsem realizoval jiný web, který má jen jednu jazykovou verzi a tam je indexace v pořádku.

Do MajesticSEO jsem se zaregistroval a budu sledovat reporty.

Děkuji za ochotu.
petrxxx
Profil
Pavel Straka:
Prosím o informaci, jak ručně promazat ty chybné stránky - možnost "označit za opravené" ve Webmastertools nevidím. Je možné, že možnost nevidím, protože mám do Webmastertools jen omezený přístup? Hledám možnost správně v Procházení -

Nechte si udělit administrátorský přístup


Pavel Straka:
Problém jsem konzultoval s webhostingem - dle jejich reakce není u nich žádný problém a ani nevědí, čím by to mohlo být způsobeno, mám se prý obrátit přímo na Google.

Zkuste si sledovat dostupnost těch problematických stránek každou sekundu např. pomocí
https://www.pingdom.com/
Pavel Straka
Profil
Díky za rady.
Rád bych se ještě na ten problém podíval z trochu jiného úhlu. Jde o inzertní web postavený na vlastním řešení (OOP PHP + Smarty šablony). Na stejném řešení běží ještě jeden web - tam je vše v pořádku. Takže bych možná zkusil bádat nad problémem z tohoto úhlu - co je jiné na tomto problematickém webu oproti tomu, který to má v pořádku?

Má 2 jazykové verze - řešené je to přes zobrazení příslušeného templatu pro příslušný jazyk (CZ nebo SK). Může být problém v tom, že ta dvojjazyčnost je nějak špatně zpracovaná? Ve Webmastertools se jako duplicitní ukazuje 25 stránek - to předpokládám není vzhledem k celkovému počtu vysoké číslo.

Druhá věc, která mně přijde zvláštní je, že po zadání site:adresawebu.cz vrátí nějakých 27 000 výsledků a dle tohoto jsou zaindexovány i obrázky/fotografie. Stejně tak ve WebmasterTools Index Google -> stav indexu ukazuje 27 000 jako indexováno celkem a 0 jako blokováno roboty. Nechápu tedy, proč Google Webmaster Tools->Sitemap ukazuje takovéto hodnoty.

Poradí prosím někdo?

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: