Autor Zpráva
Patrik C.
Profil *
Dobrý den,

mám problém s kterým si bohužel nevím rady... Přidal jsem do google search console Index souborů Sitemap, ten se podařilo načíst správně... Bohužel soubory, které jsou v něm už google načíst nechce, ani když jeden z nich vemu a dám ho do google search console natvrdo... Píše pořád nelze načíst, xml mám správně. Nepotkal se někdo s touto chybou ?

Děkuji
Kajman
Profil
Patrik C.:
xml mám správně

Ještě bych zkontroloval http hlavičky a robots.txt. A pak případně ještě jednou XML :-)

Neznám obdobný nástroj od seznamu, ale pokud tam jdou také dávat sitemapy, tak zkuste dát tu podmapu i tam, třeba tam bude ukecanější chybová hláška.
Patrik C.
Profil *
Uz jsem zkoušel fakt všechno, Index souboru sitemap to nacte, i odkazy na ne, zkoušel jsem i dát mene nez 50 000 url adres na soubor, ted mam 30 000, proste to nechce nacist, uz tyden to resim a stále nic... :( zacinam mít chute vyhodit notas z okna...


Ukládám to v UTF8, vse podle norem www.sitemaps.org/protocol.html, proste je to divny :D v robots.txt mam jen sitemap
lionel messi
Profil
Patrik C.:

Možno by pomohlo ukázať nám „http hlavičky a robots.txt a pak případně ještě XML“.
Patrik C.
Profil *
lionel messi:

http hlavičku nemám kde kontrolovat, ukládám to do xml, nemám live sitemap

Robots:
User-agent: *
Allow: /


Sitemap: https://www.adresawebu.com/sitemap.xml

Sitemapu to nacte, odkazy v ni na systemapu to take nacte, v search console kdyz pak dam otevrit jeden z nactenych souboru, ktery nechce nacist url adresy, tak se otevre v poradku...

Každý xml začiná:

<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

a obsahuje pouze <url><loc>adresa</loc></url>

ano xml mam ukonceny </urlset>


Když data zobrazím v prohlížeči, vypíše se mi

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>
adresa
</loc>
</url>
<url>
<loc>
adresa
</loc>
</url>
<url>
<loc>
adresa
</loc>
</url>
<url>
......

Nemuze to byt tim, ze adresa neni ve stejnem radku jako <loc> ?


accept-ranges: bytes
age: 2
cache-control: max-age=600
content-encoding: gzip
content-length: 33316
content-type: application/xml
date: Sun, 12 Apr 2020 15:17:25 GMT
etag: "7983f-5a3195a1463c5-gzip"
expires: Sun, 12 Apr 2020 15:27:25 GMT
last-modified: Sun, 12 Apr 2020 15:09:24 GMT
server: ATS
status: 200
vary: Accept-Encoding



Tak ta struktura nevim proc se tak vypisuje, kdyz soubor po 5ti minutovém načítání otevřu v editoru :D, mám to v pořádku a bez mezer


Validátor: www.xml-sitemaps.com/validate-xml-sitemap.html

me vypise se je vse v poradku, zadne upozorneni ani chyba...
Kajman
Profil
Patrik C.:
zkoušel jsem i dát mene nez 50 000 url adres na soubor

Jasně, proto se dělají seznamy sitemap, protože v jedné nesmí být více jak 50 000. Také (nezagzipovaný) xml soubor nesmí být větší než 50MB. Je možné, že tím, že jste měl přes 50 000 url v jednou souboru, googlebot ho ani po opravě nebere vážně.

Zkuste opravenou sitemapu přejmenovat a znovu přidat přes konzoli tu přejmenovanou variantu s omezeným počtem url.
Patrik C.
Profil *
To jsem samozrejme zkousel a nikdy jsem 50 000 nepresahnul, mel jsem vzdy mene, napr: 48 000 apod, samozrejme velikost tak velkou nemam, mám jen cca 2,5mb. Prejmenovat jsem zkousel, ted jsem pridal dva soubory, bez seznamu sitemap, vzalo to dva soubory po 25 000 url a dalsi uz pise, ze je nemuze nacist... :D


Pritom jsou generovany ve stejny cas, stejnym scriptem, takze tim to neni, maji jiny nazev nez predtim, tak ja nevim uz, asi me jebne...
Tomášeek
Profil
Patrik C.:
Možná by pomohlo, kdybychom se přestali bavit obecně a začali se bavit konkrétně. Ukaž konkrétní soubor, se kterým máš problém.
Patrik C.
Profil *
Tomášeek:

Sitemapa souboru:

www.rikrek.com/sitemap.xml

Ráno jsem vložil do search console: www.rikrek.com/sitemap/sitemap_filmy_cs_105.xml a www.rikrek.com/sitemap/sitemap_filmy_cs_106.xml, jen tak náhodile, vzalo to, a zkusil jsem www.rikrek.com/sitemap/sitemap_filmy_cs_111.xml a uz to nevzalo... kazdy soubor obsahuje 25000 url a má cca 2,5mb
Kajman
Profil
Např. první soubor
www.rikrek.com/sitemap/sitemap_filmy_cs_1.xml

Má na začátku
<?xmlversion="1.0"encoding="UTF-8"?><urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
asi Vám vypadly mezery...
<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Takovou chybu přece musí každý parser najít.

Do sitemapy bych nedával žádné url, kde nic není (nejsou např. alespoň 2 nebo 3 položky - tedy víc, než je vidět na hlavní stránce filmu)
www.rikrek.com/cs/film/the-structure-of-crystals/343784/hodnoceni
www.rikrek.com/cs/film/the-structure-of-crystals/343784/zajimavosti
www.rikrek.com/cs/film/the-structure-of-crystals/343784/doporuceni
www.rikrek.com/cs/film/the-structure-of-crystals/343784/komentare
Naopak bych je na hlavní stránce do té doby označoval jako nofollow.

Tipnul bych, že u nepolámaných souborů prostě google bot vidí spoustu duplikátů bez obsahu. A nedůvěřuje té doméně natolik, aby indexoval milióny url, kde po ostranění omáčky vlastně nic není.
Patrik C.
Profil *
Kajman:
Díky za reakci, nofollow jsem již aplikoval a ze sitemap odkazuji uz jen na main page filmu, tak uvidíme, co na to řekne google za pár dní a snad sitemapu načte...
Kajman
Profil
A snažil bych se přidat do sitemap správný <lastmod>, aby robot věděl, které stránky potom reindexovat jako první a které by měly být stejné jako při poslední návštěvě..
Patrik C.
Profil *
Kajman:
Chápu, budu se snažit v co nejkratší době přidat...

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0