Autor | Zpráva | ||
---|---|---|---|
habendorf Profil |
#1 · Zasláno: 8. 8. 2006, 18:31:05
Seznam prohlašuje, že respektuje robots.txt. Mě však zcela prokazatelně zaregistroval minimálně jednu stránku, kterou neměl.
Je to velmi nepříjemné, jde o úložiště komerčních projektů pro klienty. Ano, mohl bych použít http autentifikaci (asi mi nic jiného nezbyde), ale prostě jsem seznamu věřil. Můj robots.txt vypadá velmi prostě: User-agent: * Disallow: / V tom by snad chyba být neměla (je umístěn v rootu webu). Zajímalo by mě, zda je možné stránku z fulltextu nějak vyřadit. Na http://napoveda.seznam.cz/cz/indexovani.html se píše: Odstraňování stránek z databáze fulltextu probíhá automaticky. Konkrétní stránka je robotem z výsledků vyhledávání odstraněna, pokud robot při její návštěvě zjistí, že neexistuje (HTTP odpověď 404 nebo 410), je přesměrována na jinou stránku (HTTP odpověď 301 nebo 302), má zakázanou indexaci v robots.txt nebo meta tagem robots (<meta name="robots" content="noindex">), nebo pokud automatické indexaci brání jiná překážka (nedostupnost, HTTP odpověď 403 apod.). Pro odstranění stránky z indexu tedy stačí jeden z těchto stavů zařídit a počkat, než robot stránku navštíví. Ovšem to není to co chci, já tam ty stránky chci mít. Jen by se mi líbilo, kdyby Seznam respektoval to, o čem říká že to respektuje. Ví někdo v čem by mohl být problém? Yuhů, Mistr: Můžeme to prosím nějak vyřešit a web z fulltextu vymazat? |
||
Martin Kuželka Profil |
#2 · Zasláno: 8. 8. 2006, 19:25:53
Myslím, že něco podobného se už řešilo v konferenci seo.nawebu. Snad je to ještě aktuální.
|
||
habendorf Profil |
#3 · Zasláno: 8. 8. 2006, 19:39:13
Martine, převelice děkuji, to by vysvětlovalo vše. Ovšem pokud je na http://napoveda.seznam.cz/cz/indexovani.html výslovně uvedeno "Použijte standard robots.txt ", považuji toto jednání Seznamu za ... ehm ... přinejmenším podivné.
Kdybych chtěl použít řešení navrhované tamtéž , jak by měl vypadat správně robots.txt? Takto User-agent: * Disallow: /? nebo pro jistotu User-agent: * Disallow: / Disallow: /? nebo úplně pro jistotu User-agent: * Disallow: / User-agent: SeznamBot Disallow: / Jde mi o úplné zakázání pro všechny roboty plus tedy ještě extra pro seznam. Co bys prosím tě doporučil? |
||
Martin Kuželka Profil |
#4 · Zasláno: 8. 8. 2006, 19:52:56 · Upravil/a: Martin Kuželka
Ano, toto chování SeznamBota se mi také zdá dost divné. A co bych doporučil? Řekl bych, že možnosti 2 a 3 by měly být obě ok, ale ruku do ohně bych za to nedal ;-)
A u možnosti 1 si nejsem jistej.. |
||
habendorf Profil |
#5 · Zasláno: 8. 8. 2006, 19:56:35
Martine ještě jednou díky, zkusím trojku.
|
||
Marek Prokop Profil |
#6 · Zasláno: 8. 8. 2006, 19:58:26
Habendorfe, je možné (pravděpodobné), že se Seznam skutečně chová (choval) nekorektně. Rozhodně bych se to však nesnažil napravit nějakým lepším souborem robots.txt, protože základní chyba je u vás. Soubory, které se nemají dostat na veřejnost *musí* být chráněny heslem.
Standard robots.txt nevznikl k ochraně důvěrných informací. Dokonce právě naopak únik důvěrných informací usnadňuje. Vznikl k ochraně serverů před nechtěnou zátěží a v tomto duchu ho většina slušných robotů bere. To znamená, že občas "zákaz" v jednotlivých případech poruší, např. v důsledku kešování souboru robots.txt apod. |
||
Martin Kuželka Profil |
#7 · Zasláno: 8. 8. 2006, 20:04:52
Marku, co je ale podle vás v případě, kdy se nejedná o tak důvěrné informace, lepší - zatěžovat klienta nutností přihlásit se nebo použít, jak vy sám píšete, "lepší soubor robots.txt"?
Omlouvám se za OT. |
||
habendorf Profil |
#8 · Zasláno: 8. 8. 2006, 20:12:21
Martin Kuželka: Ano, to je přesně ono. Ony to zas tak naprosto supertajné informace nejsou. Jde jen o to, aby moje šablony pro klienta nevyskakovaly na Seznamu výše, než konečný web :o)
Lépe řečeno aby tam nevyskakovaly vůbec. Proto jsem myslel, že stačí URL (kterou znám jen já a klient) plus robots.txt. Mě totiž nejde o to, aby stránky byly bůhvíjak chráněné, jen aby je neindexovali roboti. Marek Prokop: Děkuji za názor, http autentifikace by to asi řešila nejlépe, to je pravda. Ale připadá mi to až příliš silné řešení. A navíc udržovat různá hesla pro různé klienty na různých URL, ach ou ... do toho se mi dvakrát nechce. |
||
zimmi Profil |
#9 · Zasláno: 8. 8. 2006, 20:16:19
habendorf: Pokud adresu znáš jen ty a klient a pokud na ni nikde není odkaz, neměla by se do vyhledávání vůbec dostat, ne? Nebo se mýlím?
|
||
Marek Prokop Profil |
#10 · Zasláno: 9. 8. 2006, 00:03:12
"Proto jsem myslel, že stačí URL (kterou znám jen já a klient) plus robots.txt."
No jo, jenže v takovém případě to původně neznámé URL v robtos.txt zvěřejníte pro celý svět :-) Robots.txt se na to opravdu nehodí, vážně. |
||
llook Profil |
#11 · Zasláno: 9. 8. 2006, 07:36:07
Napadá mě jedno řešení, které ale asi nenadchne příznivce norem, standardů a buzerace. Co takhle posílat jiný stavový kód HTTP? Nebo je nějaký prohlížeč, který stránku s kódem 404 nezobrazí a vyhledávač, který ji zaindexuje?
No a nebo zkus robotí metatagy, ty by snad taky mohli zabrat... |
||
Martin Kuželka Profil |
#12 · Zasláno: 9. 8. 2006, 09:53:47
Marku, v tomto konkrétním případě žádné neznámé URL v robots.txt nezveřejníte, protože ten zákaz indexování platí pro celý web.
|
||
habendorf Profil |
#13 · Zasláno: 9. 8. 2006, 11:40:07
No jo, jenže v takovém případě to původně neznámé URL v robtos.txt zvěřejníte pro celý svět :-)
Přesně jak říká Martin Kuželka, přes User-agent: * Disallow: / toho moc nezveřejním :o) |
||
Časová prodleva: 18 let
|
Toto téma je uzamčeno. Odpověď nelze zaslat.
0