Autor Zpráva
helpik.JPW
Profil
Dobrý den,

chtěl bych se ujistit v jedné věci.

Na webu jsou v:
- /rok/neco/mozna-neco/interni případně například
- /rok/interni

Ve složce interní je prázdný index.php - asi kdyby v případě uhodnutí adresáře se nezobrazil seznam souborů.
Chtěl bych typově zamezit indexaci v adresářích interni, ale aby to nebylo v robots.txt tolok patrné.

Vyhovuje?
Disallow: /int

Nebo musím něco jako:
Disallow: /*int*/

Děkuji
Marek Prokop
Profil
Jestliže má být něco neveřejné, nesmí to být veřejně přístupné (tj. přístup musí být podmíněn přihlášením). Zákaz adresy v robots.txt ještě neznamená, že se ta adresa nedostane do výsledků hledání.
johnl
Profil
helpik.JPW:
Myslím, že pokud nevedeš na tento adresář nikde žádný odkaz (a to asi nevedeš) tak už tím je šance že se adresář dostane do vyhledávání malá. Jako index do toho adresáře dej soubor který odešle chybovou hlavičku 404.
jenikkozak
Profil
helpik.JPW:
Jen doplnění:
Ve složce interní je prázdný index.php - asi kdyby v případě uhodnutí adresáře se nezobrazil seznam souborů.
V souboru .htaccess by mělo stačit přidat (resp. změnit hodnotu „Options Indexes“) na „Options -Indexes“, pak se nebude vypisovat obsah složky.
helpik.JPW
Profil
Na interní adresář (nejde o adresář typu "administrace", ale jen o nějaké materiály) není samozřejmě veden žádný odkaz.

johnl:
Jako index do toho adresáře dej soubor který odešle chybovou hlavičku 404.
To bych mohl, děkuji.

jenikkozak:
Options -Indexes
To jsem nevěděl. Takže do rootu webu přidám do .htaccess Options -Indexes

ten robots.txt bych měl upravit jak?
ludekbrno
Profil *
helpik.JPW:
Jednoduše, na co neexistuje ve veřejné části odkaz, není třeba dávat to do robots.txt, protože vyhledávače to nenajdou a určitě nemají hádací algoritmus :) Naopak pokud něco takového do robots.txt dáš, ukazuješ potencionálním útočníkům možné cíle. Samotný robots.txt nic neochrání, to je vlastně jen zdvořilá žádost slušným vyhledávačům, aby pokud možno neindexovaly uvedené položky.
helpik.JPW
Profil
ludekbrno:
Jednoduše, na co neexistuje ve veřejné části odkaz, není třeba dávat to do robots.txt, protože vyhledávače to nenajdou a určitě nemají hádací algoritmus :)
To nemusí být 100% pravda.

Naopak pokud něco takového do robots.txt dáš
Myslel jsem něco jako (pro adresář "interni" někde v adresářích) - viz hlavní dotaz
Disallow: /int

Nebo musím něco jako:
Disallow: /*int*/
Což by mělo znamenat "při adrese začínajíci na int neindexuj"
Potenciónální útočníci nevědí, jak se adresář jmenuje ani kde je uložen.
jenikkozak
Profil
helpik.JPW:
protože vyhledávače to nenajdou a určitě nemají hádací algoritmus :)“
To nemusí být 100% pravda.
Máš jinou zkušenost? Podle logů návštěvnosti na svých webech nemám pocit, že by se roboty Seznamu či Googlu snažily hádat adresy skrytých souborů. K čemu by jim bylo, že by u každého webu vyzkoušeli (teoretické) nekonečno různých adres? Obrovské náklady, nulový výsledek, pošramocená pověst. To asi nebude jejich cíl.

První zápis („Disallow: /int“) nesplní to, co čekáš. Zablokuje pouze adresář, který leží přímo v tom, ve kterém je uložen robots.txt.
U toho druhého se přiznám, že odpověď neznám. Tedy jestli zápis „Disallow: /*int*/“ vysvětlí robotům, že nemají lézt do složky /prints/. Ono totiž záleží nejen na tom, jaké jsou standardy zápisu do toho souboru, ale jak tyto pravidla jsou schopni (či ochotni) chápat ti konkrétní roboti.

Také si myslím, že se tento problém snažíš řešit ve špatné vrstvě. Pokud budou požadavky na tyto soubory končit hláškou Nepovolený přístup, nebude zápis v robots.txt nutný. Stejně nějaké takové řešení budeš muset implementovat, pokud nechceš, aby se k těm souborům lidé dostávali.
ludekbrno
Profil *
helpik.JPW:
Proč by to prosimtě vyhledávače dělaly a jak? Vyhledávače určitě nemají snahu poskytovat ve výsledcích odkazy do neveřejných částí webů, na které neexistují ve veřejné části odkazy. Myslím, že řešíš blbosti. Mimochodem, vyhledávače obecně neposkytují ve výsledcích stránky, na které nevedou žádné odkazy a mají tedy nulovou váhu, protože asi nejdůležitějším kritériem hodnocení stránek je právě množství odkazů. Neexistuje tedy jediný důvod, proč by vyhledávače měly vyhledávače zkoušet hádat neveřejné podstránky, na které nevedou vůbec žádné odkazy a které tedy dle kritérií vyhledávačů mají mizivou hodnotu.
Petr ZZZ
Profil
Řekl bych, že jasnou odpověď dal hned Marek Prokop [#2], nicméně následující průběh diskuse dává tušit, že pravděpodobně nebyla úplně pochopena. Dovolím si proto trochu rozepsat jednu dost zásadní okolnost, která s tím dle mého názoru souvisí.

První zájem vyhledávače je nabízet zajímavý obsah – o nic jiného se primárně nezajímá. Počet příchozích odkazů je jen metodou, pomocí které se vyhledávač snaží poznat, že je obsah zajímavý. Domnívám se, že pokud by vyhledávače našly jiné, srovnatelně účinné metody hodnotit kvalitu stránky, tak by je použily (a myslím si, že nějaké alternativní či doplňující metody mají a v té či oné míře je používají).

Snadno se tedy může stát, že nabídnou i stránku, na kterou nevede z její vlastní domény jediný odkaz. Být vyhledávač, asi bych to sice hodnotil negativně, ale nikde není psáno, že by příslušná stránka nemohla "mínusy" za chybějící odkaz z vlastní domény vyrovnat jinými kvalitami. A nikde není zaručeno, že se někde v hlubinách internetu neobjeví přirozený odkaz, podle kterého se vyhledávače na "zamlčovanou" stránku dostanou. Nejspolehlivější metoda, jak zamezit nalezitelnosti stránky, je proto zaheslování přístupu.

Sdělit robotu vyhledávače, že stránku nemá indexovat, samozřejmě není chybou, ale asi bych to psal spíš do hlavičky konkrétní stránky než do robots.txt a chápal bych to jen jako jakýsi doplněk k zaheslování.
jenikkozak
Profil
Petr ZZZ:
nicméně následující průběh diskuse dává tušit, že pravděpodobně nebyla úplně pochopena
Možná nebyla pochopena ta další diskuse. Mám pocit, že nikdo se tu nesnaží informace uvedené v druhém příspěvku vyvracet.

ale asi bych to psal spíš do hlavičky konkrétní stránky než do robots.txt
No jo, a teď nám ještě vylož, jak dáš HTML hlavičku do obrázků. :) Vygenerovat si stránku z databáze, do které není přístup, je snadné, třeba obrázky se skladují hůř. (Řekněme že to platí pro většinu správců webů; netýká se to všech, jsou to data jako data.) Dovedu si představit, že by si někdo chtěl takto na webu ukládat třeba obrázky s originální velikostí, ovšem chtěl by, aby se uživatelům zobrazovaly jen obrázky zmenšené nebo upravené vodoznakem.

A nikde není zaručeno, že se někde v hlubinách internetu neobjeví přirozený odkaz, podle kterého se vyhledávače na "zamlčovanou" stránku dostanou.
A nikde není zaručeno, že na nikoho nespadne meteorit během psaní do diskuse, a přesto snad nikdo nepíše na počítači s helmou na hlavě. Přitom to riziko existuje. Pokud tam tu adresu nedá ten člověk, který ji zná, pak je podle mne dobře zvolená adresa podobně bezpečná jako heslo. To totiž také teoreticky může být někde napsané, teoreticky ho někdo může uhodnout, teoreticky ho může správce nechtěně prozradit. Vážně si nemyslím, že by někdo omylem zadal do prohlížeče adresu domena/rok/neco/mozna-neco/interni. Já osobně bych to na první pokus netrefil.
Petr ZZZ
Profil
jenikkozak:
Mám pocit, že nikdo se tu nesnaží informace uvedené v druhém příspěvku vyvracet.
Projevem nepochopení nemusí nutně být vyslovený nesouhlas.

Pokud tam tu adresu nedá ten člověk, který ji zná, pak je podle mne dobře zvolená adresa podobně bezpečná jako heslo.
Heslo, předpokládám, nemůže být v historii, adresa ano. Stačí, aby se nějaký zvědavec podíval, odkud k němu našinec přišel. Taky není jedno, zda jsem jediný, kdo na neveřejnou adresu musí, nebo zda je těch lidí víc. Řekl bych, že meteorit je řádově někde dost jinde.

Reaguji na jenikakozaka ↓:
Nechám to plovat. :-)
jenikkozak
Profil
Petr ZZZ:
Heslo, předpokládám, nemůže být v historii, adresa ano.
Výše citovanou větou jsem myslel tento konkrétní případ. Tedy případ, kdy se neschovává administrace, ale jakási hromada souborů.
V historii ti adresa nevadí, historie se totiž na webu většinou neuvádí ve formě odkazů. Stejně tak se ve formě odkazů neuvádí referer.
Myslel jsem to ale trochu jinak. Představ si skript na upload fotek. Nahraješ fotku, originál se uloží do složky alusdhfpaoizf/aksfa/original, obrázek se zmenší, vloží do něj vodoznak a uloží na nějakou dostupnou adresu. Originál ti slouží k tomu, abys pak časem mohl zmenšit snímek na jiný rozměr (či jej nechat stejný) nebo třeba změnit vodoznak. Ta adresa alusdhfpaoizf/aksfa/original se vůbec do prohlížeče nedostane, protože s ní bude komunikovat pouze ten uploadovací skript. No a teď se dostáváš do současné situace, kdy dumáš nad tím, jestli máš tu adresu uvádět do robots.txt; jestli ti pomůže, když zadáš do blokovaných adres *fpaoiz*, čímž utajíš přesnou adresu.

Myslím, že jsi nás pravděpodobně nepochopil, v důsledku čehož jsi napsal, že jsme cosi nepochopili. :)
Osnova tohoto vlákna:
Marek Prokop: nutno zabezpečit soubory jinak. (Vracely by pravděpodobně chybu 401)
johnl: Místo prázdného indexu (vracejícího kód 200) nastav soubor vracející chybu 404. (spíše obecně platné doplnění předchozí informace)
jenikkozak: Místo prázdných indexů stačí změnit znaménko v .htaccess, což vrací chybu 403. (doplnění a jako doplnění také označeno)
helpik.JPW: Upřesňuje konkrétní dotaz. (Možná si chce zaheslování pojistit přes robots.txt, možná je jen zvědavý, možná ho někdo navedl.) Domnívá se, že roboti vyhledavačů mohou hádat adresy. (obecně platný dotaz)
jenikkozak: Vyvrací výše uvedenou domněnku. (obecně platnou, vrací se ke konkrétnímu dotazu, zda roboti budou chápat zápis s hvězdičkami)
ludekbrno: Doplňuje výše uvedený bod.
Petr ZZZ: Ignoruje, že reagujeme na nepřesnosti vzniklé v průběhu konverzace, a rozepisuje Markův příspěvek.
jenikkozak: Se lekl, že třeba něco nepochopil, tak bere Petra ZZZ za slovo, pak Petr ZZZ bere za slovo jeho.
A nakonec jenikkozak se necítí patřičně provinile a sepisuje schéma vlákna tak, aby to vypadalo, že taky něco pochopil.
Petr ZZZ to nechá plavat, nebo si říká, že nemá smysl se přetahovat o slovíčka a pošle příspěvky od jedenáctky k ledu. Ono je to úplně jedno, protože toto vlákno se dá považovat za dostatečně vyřešené a objasněné, řekl bych.
Marek Prokop
Profil
Riziko je třeba vždy posuzovat jednak podle pravděpodobnosti, zda událost nastane, a jednak podle škody, jakou událost způsobí. Škodu v tomto případě neznám, ale pravděpodobnost, že Google zařadí do výsledků vyhledávání dokument, na který nevede žádný interní odkaz, je jen tak od oka desetimilionkrát vyšší, než že na člověka spadne meteorit, a ani to nemusí být při psaní do diskuse :-)

Ono stačí např. otevřít ten "tajný" dokument v Chromu, v jiném prohlížeči s Google toolbarem, v jakémkoli prohlížeči s nějakým ne zcela košer doplňkem, prokliknout se z dokumentu někam, kde jsou otevřené referrerové statistiky či track back apod.

Takže tahle úloha opravdu nemá jiné řešení, než adresář zaheslovat -- samozřejmě v případě, že by únikem informací skutečně došlo k nějaké škodě.
helpik.JPW
Profil
[#7] helpik.JPW
Asi bych měl tedy doplnit, že si mi párkrát stalo (u jiného webu), že ačkoliv na dokumet (v tomto případě MS Word u kterého mi bylo celkem jedno, jestli bude v result page) nebyl veden odkaz, přesto se na dané slovní spojení v result page text v dokumentu "ztučňuje" a dokument se občas zobrazuje. Z toho usuzuji, že se může stát téměř s jakýmkoli souborem splňujícím podmínky stejné jako u popsaného dokumetu MS Word.

Proto jsem i na větu: „Jednoduše, na co neexistuje ve veřejné části odkaz, není třeba dávat to do robots.txt, protože vyhledávače to nenajdou a určitě nemají hádací algoritmus :)“ odpověděl: "To nemusí být 100% pravda." Je mi v podstatě jedno, proč se tam zobrazuje, ale že mám takovou zkušenost. Ať se tam prostě zobrazil pomocí "chytrého" algoritmu pomocí vyhledávače nebo zprostředkovaně jak popisuje p. Prokop (prostřední odstavec - velmi názorné, děkuji za tyto informace).

Nejde o žádné extra tajné věci :)

Takže opravdu prostě každý adresář /interni/ zaheslovat - asi nejrychleji a nejjednodušeji pomocí .htaccess a .htpasswd. To je tedy asi to jediné, co mohu udělat, pokud adresář v tobots.txt nebude.

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: