Autor Zpráva
quinux
Profil
Zdravím,

potřeboval bych nějak zakázat úplné indexování určitých stránek vyhledávači. Jedna z možností, která mě napadá je do "a href" dát rel="nofollow" jenže tohle nepodporují ještě některé české vyhledávače, takže je to k ničemu. Další na řadě je robots.txt jenže tam nevím jak to zapsat jelikož adresa těch stránek se generuje dynamicky, ale končí vždy ..&print=1, jenže jak to mám zapsat do robots.txt - disallow /*&print=1 ? pokud Vás něco napadá budu Vám vděčný.

Díky moc
nakashi
Profil
pokud adresa stranek, ktere nechces indexovat vzdy konci &print=1 mel by byt mozny zapis
User-Agent: *

Disallow: /*.php$

viz.: Robots.txt - zakázání přístupu robotům
nakashi
Profil
pardon, spravne by to melo byt asi takhle:
User-Agent: *

Disallow: /*&print=1$

:)
quinux
Profil
Díky za snahu, ale jak jsem již zjistil tak tohle nepůjde. 100% to nepodporuje jyxo.cz a ostatní nejspíše taky ne, české vyhledávače jsou pro mne důležité.
Jakub
Profil
Nevím jak ostatní, ale Jyxo určitě robots.txt respektuje http://jyxo.cz/d/faqw.
Stejně tak Seznam http://fulltext.seznam.cz/url.py/infoScreen.
quinux
Profil
Jakub

Robots.txt ano, ale ten dany parametr Disallow: /*&print=1$ ne. ;o)
Kajman_
Profil *
Parametry v robots.txt použít nelze.

Řešení je víc...

V php při tisku kontrolovat, zda to je robot a v tom případě poslat kód 403.

Pomocí rewrite udělat takovou adresu pro tisk, že půjde využít robots.txt.

Zakázat to vyjmenováním robotů přímo v rewrite pravidlech.
http://www.jakpsatweb.cz/server/mod_rewrite/mod-rewrite-priklady.html# zakaz_parametru_robotum

V každém případě, bych tam dal i noindex a v odkazech nofollow.
nakashi
Profil
A hlavne, proc vlastne pouzivas zvlastni nahled stranky pro tisk?
Kdyz ji napises poradne a udelas zvlast cssko pro screen a print, tak nic takovyho nepotrebujes a nemusis resit ani roboty...
Slim
Profil *
Ahojda, zajímalo by mě, jaktože se ve výpisu googlu objeví soubory, které tam už rok nejsou?
Počet zaindexovaných souborů zjišťuji zadáním site:www.example.com example To, že se zaindexuje 90% mýho webu, je ještě v poho, ale to, aby po roce stále ještě existovaly odkazy na rok smazané soubory, to mi připadá trochu hmmmm... díky za odpověď a případný návrh na řešení
dotčená stránka: www.brandys.naseskola.cz
Kajman_
Profil *
Buď u nich vracet kód 410 (nevím, jestli to pomůže ;-) nebo 404 a ručně říct googlu, že už tam být nemají:
http://www.google.com/webmasters/remove.html#outdated
Yuhů
Profil
Podle mě je řešením použít v takovém url
1. meta tag robots s hodnotou noindex (pochopí všechny vyhledávače, snad kromě jyxa)
2. pokusně přidat zápis do robots.txt s hvězdičkou (pochopí Google, Jyxo a možná i další -- Seznam zatím ne)
Jasper
Profil
Znáte nekdo soubor robot.txt Ted nemluvim o robots.txt
Dival jsem se do error logu na svem weu a nekdo z ip adresy patrici microsoftu opakovane hleda soubor robot.txt...
Toto téma je uzamčeno. Odpověď nelze zaslat.

0