Autor Zpráva
lionel messi
Profil
Zdravím,

pri prehliadaní štatistík prístupov jedného z mojich webov pomocou programu AwStats som narazil na istý počet prístupov cez cURL a rozhodol som sa, pozrieť sa na tieto prístupy aj v logu prístupov (zaznamenávam doňho snáď všetky možné info, aj User-agenta) — chcel by som zistiť IP adresu, kt. načítala môj web cez cURL. Keď som však priamo v samotnom logu z konkrétneho dňa, keď boli prístupy cez cURL zaznamenané, zadal vyhľadávanie reťazca cURL (aj case-insensitive), nenašlo sa nič a neviem, akým iným reťazcom sa cURL „podpisuje“ do logu (prípadne či vôbec). Ďakujem veľmi pekne za každú odpoveď.
Medvídek
Profil
lionel messi:
Bohužel nezjistíš, veškeré hlavičky se dají nastavit (a je to tak dobře), že nepoznáš jestli se jedná o uživatele, nebo požadavek přes curl.
juriad
Profil
Medvídek:
AwStats mu ty cURL přistupy změří, tedy nejspíš je dokáže identifikovat. Dost pravděpodobně právě pomocí User Agenta.

lionel messi:
Změn nastavení logování, tak aby se ukládal i UserAgent.
http://httpd.apache.org/docs/2.2/logs.html#accesslog (Combined Log Format)
http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#formats
Pak v nových lozích již tuto informaci najdeš.
Medvídek
Profil
juriad:
AwStats mu ty cURL přistupy změří, tedy nejspíš je dokáže identifikovat. Dost pravděpodobně právě pomocí User Agenta.
Jen řikám, že neexistuje 100% detekce cURL požadavku od požadavku z normálního prohlížeče. A celkem by mě zajímalo, jak na to přišel v AwStats, nebo podle čeho soudí, že je to požadavek přes cURL.
fandaa
Profil
Medvídek:
Možná používá některý z těchto postupů.
Medvídek
Profil
fandaa:
Což by znamenalo, že by musel mít na to speciálně upraveny stránky, a tyto pokusy, které MOHOU být přes cURL si logoval. Takže pokud jsi to opravdu přečetl a nenašel jen první odkaz na googlu, tak by si se dočetl, že:

There is no magic solution to avoid automatic crawling. Everyting a human can do, a robot can do it too. There are only solutions to make the job harder, so hard that only strong skilled geeks may try to pass them.

A opravdu nevim, jestli kvůli logování cURL požadavků bych nastavoval cookies přes JS a nebo podobné obstrukce.

Pro zajímavost, zde jsou hlavičky z mého cURL skriptu:
  'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0 | TEST PRO DJPW',
  'Host' => 'localhost',
  'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Connection' => 'keep-alive',
  'Accept-Encoding' => 'gzip, deflate',
  'Accept-Language' => 'cs,cs-CZ;q=0.93,en-US;q=0.87,en;q=0.8,pl-PL;q=0.73,pl;q=0.67,en-gb;q=0.6,sk-SK;q=0.53,sk;q=0.47,de-DE;q=0.4,de;q=0.33,ru-RU;q=0.27,ru;q=0.2,fr-FR;q=0.13,fr;q=0.07',

a zde z mého prohlížeče

'Host' => 'localhost',
  'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0',
  'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language' => 'cs,cs-CZ;q=0.93,en-US;q=0.87,en;q=0.8,pl-PL;q=0.73,pl;q=0.67,en-gb;q=0.6,sk-SK;q=0.53,sk;q=0.47,de-DE;q=0.4,de;q=0.33,ru-RU;q=0.27,ru;q=0.2,fr-FR;q=0.13,fr;q=0.07',
  'Accept-Encoding' => 'gzip, deflate',
  'Connection' => 'keep-alive',

celkem by mě zajímalo, jak z toho poznáš, co je co :)
fandaa
Profil
Medvídek:
A řekl jsem snad, že je to spolehlivé? To už zde bylo řečeno.

Teď ale přemýšlím, že jsem popletl AWStats (který čte z logů) a Piwik (který ma sledovací JS), nad čímž jsem v tu chvíli nepřemýšlel.
lionel messi
Profil
Ospravedlňujem sa, že som sa dlhšie neozval (maturity). Vďaka za všetky postrehy, log som upravil podľa juriadovho odkazu, čakám na prístupy cez cURL (od vzniku tohto vlákna nič nové).
Medvídek
Profil
lionel messi:
Ospravedlňujem sa, že som sa dlhšie neozval (maturity). Vďaka za všetky postrehy, log som upravil podľa juriadovho odkazu, čakám na prístupy cez cURL (od vzniku tohto vlákna nič nové).
Pokud loguješ User Agenta, tak pochybuju, že někdy něco najdeš :)
lionel messi
Profil
Medvídek:
Pokud loguješ User Agenta, tak pochybuju, že někdy něco najdeš :)
Aj ja, ale v zatiaľ nehlási nič ani AwStats.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: