Autor Zpráva
habendorf
Profil
Seznam prohlašuje, že respektuje robots.txt. Mě však zcela prokazatelně zaregistroval minimálně jednu stránku, kterou neměl.
Je to velmi nepříjemné, jde o úložiště komerčních projektů pro klienty.

Ano, mohl bych použít http autentifikaci (asi mi nic jiného nezbyde), ale prostě jsem seznamu věřil.

Můj robots.txt vypadá velmi prostě:

User-agent: *
Disallow: /

V tom by snad chyba být neměla (je umístěn v rootu webu).

Zajímalo by mě, zda je možné stránku z fulltextu nějak vyřadit. Na http://napoveda.seznam.cz/cz/indexovani.html se píše:

Odstraňování stránek z databáze fulltextu probíhá automaticky. Konkrétní stránka je robotem z výsledků vyhledávání odstraněna, pokud robot při její návštěvě zjistí, že neexistuje (HTTP odpověď 404 nebo 410), je přesměrována na jinou stránku (HTTP odpověď 301 nebo 302), má zakázanou indexaci v robots.txt nebo meta tagem robots (<meta name="robots" content="noindex">), nebo pokud automatické indexaci brání jiná překážka (nedostupnost, HTTP odpověď 403 apod.). Pro odstranění stránky z indexu tedy stačí jeden z těchto stavů zařídit a počkat, než robot stránku navštíví.

Ovšem to není to co chci, já tam ty stránky chci mít. Jen by se mi líbilo, kdyby Seznam respektoval to, o čem říká že to respektuje.

Ví někdo v čem by mohl být problém?

Yuhů, Mistr: Můžeme to prosím nějak vyřešit a web z fulltextu vymazat?
Martin Kuželka
Profil
Myslím, že něco podobného se už řešilo v konferenci seo.nawebu. Snad je to ještě aktuální.
habendorf
Profil
Martine, převelice děkuji, to by vysvětlovalo vše. Ovšem pokud je na http://napoveda.seznam.cz/cz/indexovani.html výslovně uvedeno "Použijte standard robots.txt ", považuji toto jednání Seznamu za ... ehm ... přinejmenším podivné.

Kdybych chtěl použít řešení navrhované tamtéž , jak by měl vypadat správně robots.txt?

Takto

User-agent: *
Disallow: /?

nebo pro jistotu

User-agent: *
Disallow: /
Disallow: /?

nebo úplně pro jistotu

User-agent: *
Disallow: /

User-agent: SeznamBot
Disallow: /

Jde mi o úplné zakázání pro všechny roboty plus tedy ještě extra pro seznam.
Co bys prosím tě doporučil?
Martin Kuželka
Profil
Ano, toto chování SeznamBota se mi také zdá dost divné. A co bych doporučil? Řekl bych, že možnosti 2 a 3 by měly být obě ok, ale ruku do ohně bych za to nedal ;-)

A u možnosti 1 si nejsem jistej..
habendorf
Profil
Martine ještě jednou díky, zkusím trojku.
Marek Prokop
Profil
Habendorfe, je možné (pravděpodobné), že se Seznam skutečně chová (choval) nekorektně. Rozhodně bych se to však nesnažil napravit nějakým lepším souborem robots.txt, protože základní chyba je u vás. Soubory, které se nemají dostat na veřejnost *musí* být chráněny heslem.

Standard robots.txt nevznikl k ochraně důvěrných informací. Dokonce právě naopak únik důvěrných informací usnadňuje. Vznikl k ochraně serverů před nechtěnou zátěží a v tomto duchu ho většina slušných robotů bere. To znamená, že občas "zákaz" v jednotlivých případech poruší, např. v důsledku kešování souboru robots.txt apod.
Martin Kuželka
Profil
Marku, co je ale podle vás v případě, kdy se nejedná o tak důvěrné informace, lepší - zatěžovat klienta nutností přihlásit se nebo použít, jak vy sám píšete, "lepší soubor robots.txt"?

Omlouvám se za OT.
habendorf
Profil
Martin Kuželka: Ano, to je přesně ono. Ony to zas tak naprosto supertajné informace nejsou. Jde jen o to, aby moje šablony pro klienta nevyskakovaly na Seznamu výše, než konečný web :o)
Lépe řečeno aby tam nevyskakovaly vůbec.

Proto jsem myslel, že stačí URL (kterou znám jen já a klient) plus robots.txt.

Mě totiž nejde o to, aby stránky byly bůhvíjak chráněné, jen aby je neindexovali roboti.

Marek Prokop: Děkuji za názor, http autentifikace by to asi řešila nejlépe, to je pravda. Ale připadá mi to až příliš silné řešení. A navíc udržovat různá hesla pro různé klienty na různých URL, ach ou ... do toho se mi dvakrát nechce.
zimmi
Profil
habendorf: Pokud adresu znáš jen ty a klient a pokud na ni nikde není odkaz, neměla by se do vyhledávání vůbec dostat, ne? Nebo se mýlím?
Marek Prokop
Profil
"Proto jsem myslel, že stačí URL (kterou znám jen já a klient) plus robots.txt."

No jo, jenže v takovém případě to původně neznámé URL v robtos.txt zvěřejníte pro celý svět :-)
Robots.txt se na to opravdu nehodí, vážně.
llook
Profil
Napadá mě jedno řešení, které ale asi nenadchne příznivce norem, standardů a buzerace. Co takhle posílat jiný stavový kód HTTP? Nebo je nějaký prohlížeč, který stránku s kódem 404 nezobrazí a vyhledávač, který ji zaindexuje?
No a nebo zkus robotí metatagy, ty by snad taky mohli zabrat...
Martin Kuželka
Profil
Marku, v tomto konkrétním případě žádné neznámé URL v robots.txt nezveřejníte, protože ten zákaz indexování platí pro celý web.
habendorf
Profil
No jo, jenže v takovém případě to původně neznámé URL v robtos.txt zvěřejníte pro celý svět :-)

Přesně jak říká Martin Kuželka, přes

User-agent: *
Disallow: /

toho moc nezveřejním :o)
Toto téma je uzamčeno. Odpověď nelze zaslat.

0