Autor Zpráva
anubis
Profil *
Čaute,
v škole sme dostali za úlohu: vybrať si nahodnú webstránku a pokúsiť sa dopátrať po jej skutočnej url (s parametrami). Ja som si vybral http://www.autoserviszatko.sk/autoservis/, ale popravde Vám poviem neviem ako by som mohol k tej url dospieť. Je to vôbec reálne alebo nám dal učiteľ len hlavolam, ktorý nemá v skutočnosti riešenie.
Fisir
Profil
Reaguji na anubise:
Myslím, že to půjde jenom zkoušením možných URL. Navíc vůbec není jisté, zda tohle opravdu není skutečná URL.
juriad
Profil
Úloha nemá řešení. Ta adresa může být opravdu jedinou, na které je obsah dostupný. Co se děje interně na serveru, nelze říct, lze jen odhadovat podle určitých znaků.
Z dostupných informací to může být statická stránka index.html v adresáři autoservis, nebo také klidně přes nějaký rewrite index.php?subpage=autoservis (příklad), nebo když to přeženu: spuštění shellového skriptu, který provede xsl transformaci nějakého xml a následné prohnání sérií regulárních výrazů pro doplnění zbytku.
Těch možností je opravdu hodně, nelze jednoznačné říct.
Klidně tam může sedět na druhé straně Ind, který umí hodně rychle psát. :-)

Podle některých indicií (hlavíčka odpovědi):
Server: Apache
X-Powered-By: PHP/5.2.17
lze odhadnout, že web běží na PHP uvnitř Apache (nebo to alespoň o sobě tvrdí).
Dále mapa webu vede na PHP skript, což je další indicie a naznačuje i strukturu adres. Není však jasné, zda i ostatní stránky používají stejné schéma. Jednoduchými pokusy jsem nic nezjistil.
bestik_63
Profil
ahoj pokud zadáš do adresy nesmysl např. http://www.autoserviszatko.sk/nesmysl/ tak se ti zobrazí úvodní stránka. Z tohoto bych usoudil že se jedná o podstrčení pomocí htaccess.
To znamená, že po zadání http://www.autoserviszatko.sk/jakýkolivtext se spustí soubor, který z textu "jakýkoliv text" dokáže zjistit jakou stránku má zobrazit, je to jakýsi parametr. poznáš to zkoušením http://www.autoserviszatko.sk/nazev_stranky.php, kde nazev_stranky může být cokoliv. Pokud se zadaná stránka na serveru nevyskytuje vypíše ti to chybu. V tomto případě se hledaná stránka jmenuje index.php. takže http://www.autoserviszatko.sk/index.php.
snazimse
Profil
juriad
spuštění shellového skriptu, který provede xsl transformaci nějakého xml a následné prohnání sérií regulárních výrazů pro doplnění zbytku.
Těch možností je opravdu hodně, nelze jednoznačné říct.
Klidně tam může sedět na druhé straně Ind, který umí hodně rychle psát. :-)


Tohle mě zajímá, jak to pak funguje? Jakože si to poskládá z .xml souboru názvy, to mi nedává smysl. Funguje to někde? Je o tom někde nějaký článek?

Ale s tím Indem to už je fakt sranda doufám, ikdyž možné je všechno :D

anubis:
Jistě, že to nemá řešení klasicky v případě, že nezískáte nějakým způsobem relevantní údaje ze serveru.To je všechno kontraproduktivní, lépe si vybrat web, kde znáte strukturu např RS, tam je to pak snadné.Tohle je RS na míru.Ale pokusit se a opravdu získat, je rozdíl, ale nevím k čemu tohle je ve škole dobré, lepší je podle mě, zjistit jak to funguje.
bestik_63
Profil
snazimse:
asi tě zklamu, ale myslel jsem to vážně. Je to samozřejmě hádání z koule, ale už jsem jednou dělal podstrčení stránky abych měl tzv. hezké adresy a přes tak jak jsem psal výše se to chovalo.
snazimse
Profil
bestik_63:

Teď nevím k čemu ses vyjadřoval, protože tvoji verzi příspěvku vůbec nespochybňuju. Reagoval jsem na příspěvek od juriad.
juriad
Profil
snazimse:
Je to možné, chtěl jsem jen ukázat, že existují i divná řešení. V tomto případě by to šlo snadno pomocí xinetd, který by spouštěl shellový skript, který může vlastně dělat cokoli. XSLT není problém (xsltproc je součástí libxml) a s regexem také ne (utilita sed).
Je zajímavé, jak lidi zapomínají na to, že webový server je úžasně jednoduchá věc, a vždy si představí nějaké monstrum typu Apache. Přitom samotný webový server nemusí být příliš složitý, stačí pár desítek řádků kódu.

bestik_63:
Také může web být vytvořený úplně jinou technologií a jen se tvářit, že používá PHP a dané schéma adres. Třeba z důvodu zpětné kompatibility či zvýšení zabezpečení.
Keeehi
Profil
snazimse:
Ale s tím Indem to už je fakt sranda doufám, ikdyž možné je všechno :D
V tomto případě tam Ind nebude ale existují služby kde na druhé straně je opravdu lidská síla. Vím určitě, že existuje společnost která zaměstnává spoustu Indů kteří celý den jen opisují captcha texty. Ty jako uživatel této služby komunikuješ s nějakým API kam posleš obrázkový soubor a za pár sekund ti server odpoví textem co ke v obrázku. Jenže místo nějakého inteligentního softwaru je za tím API schovaná hrubá lidská práce.
snazimse
Profil
juriad:

To chápu, tak určitě to někdo využívá, ale moc lidí to asi nebude, pokud taky není na sdíleném hostingu omezen.

Přitom samotný webový server nemusí být příliš složitý, stačí pár desítek řádků kódu.

Ale pak to neumí předpokládám nic moc.


Keeehi:
Vím určitě, že existuje společnost která zaměstnává spoustu Indů kteří celý den jen opisují captcha texty.

Opisují, pro jaký účel, jestli pro spam ,či jiné nekalé aktivity? Kvůli nepřístupnosti robotů, aby jim umožnili vstup? To stejné s obrázkem, věřím tomu ,ale bude to asi finančně dost náročné. Ale detekovat, z úplně každého obrázku, musí být skoro nemožné na to vytvořit tak dokonalý algoritmus si myslím zatím.Zajímavé úvahy, ale zatím asi trochu sci-fi v běžném prostředí.
Keeehi
Profil
snazimse:
Opisují, pro jaký účel, jestli pro spam ,či jiné nekalé aktivity?
To je jednoduché. Oni za to dostávají zaplaceno. Prostě přijdou do práce, opisují nějaké texty a pak jdou zas domů. Ta firma co je zaměstnává to dělá taky pro peníze. Přináší pro zájemce službu. Službě přdáš obrázek a ona ti vrátí text co je v něm. Za to chce samozřejmě nějaký poplatek. Část je její zisk, část jde do vybavení a část na platy těm Indům. Nikde na tom není nic nelegálního, motivy každého jsou celkem jasné. No a k čemu zákazník tuto službu využije jestli k něčemu legálnímu nebo ne, to už není jejich starost. Stejně jako prodejce zbraní nezajímá, jestli s ní pak zákazník bude střílet na střelnici nebo na ulici do lidí.

bude to asi finančně dost náročné.
Zadarmo to není ale v Indii stejně jako v Číně je lidská pracovní síla velmi levná.

Ale detekovat, z úplně každého obrázku, musí být skoro nemožné na to vytvořit tak dokonalý algoritmus si myslím zatím
Bavíme se přece o lidech, ne o programu.

Zajímavé úvahy, ale zatím asi trochu sci-fi v běžném prostředí.
Ale opravdu jen trochu. Nevím jestli sleduješ vývoj umělé inteligence a počítačového rozpoznávání obrazu ale ti co na jednotlivých úlohách pracují dosáhli velmi dobrých výsledků. V některých typech úloh je už dnes počítač lepší než průměrný člověk.
Ano, zatím jde o specializované programy vytvořené pro konkrétní úlohy a "spojit je" bude ještě léta trvat ale zase až tak vzdálená budoucnost to není. Vždyť dosažení singularity (kdy počítače a roboti jsou tak inteligentní že dokáží navrhovat a vyrábět výkonnější počítače než jsou sami) se odhaduje na rok 2030. Nějaká umělá inteligence zvládající rozpoznávání obrázku stejně dobře jako člověk se bude existovat ještě předtím. Samozřejmě je to jen odhad, ale jednou se to stane. Tedy v případě že tomu jako lidstvo nebudeme aktivně bránit.
snazimse
Profil
Keeehi:

„Opisují, pro jaký účel, jestli pro spam ,či jiné nekalé aktivity?“
Viděl jsem takový systém, otázka jak moc to někdo využívá. A jestli se to právě, nevyužívá někde jinde, což zcela určitě ano.

. Nevím jestli sleduješ vývoj umělé inteligence a počítačového rozpoznávání obrazu ale ti co na jednotlivých úlohách pracují dosáhli velmi dobrých výsledků.
Ano viděl jsem něco nějaké tzv:výzkumy, právě proto píšu v běžném prostředí, kde je to zatím nereálné.

Jinak souhlasím, super připomínky!
Chamurappi
Profil
Reaguji na Keeehiho:
Vždyť dosažení singularity (kdy počítače a roboti jsou tak inteligentní že dokáží navrhovat a vyrábět výkonnější počítače než jsou sami) se odhaduje na rok 2030.
A v tu chvíli už nás CAPTCHA trápit nebude. Buď proto, že AI vyřeší všechny lidské problémy a rozdíl mezi strojem a člověkem už nejspíš nebude ani reálně existovat, nebo proto, že nás AI při řešení neopatrně zadaného úkolu obětuje (na TEDu je pěkná přednáška od Nicka Bostroma). Stejně je to fascinující, že se po miliardách let biologického vývoje poštěstí nejspíš právě naší generaci spatřit jeho konec. Nemůžu neodkázat na tuto dvojici článků
Rok 2030 je víc optimistický odhad, medián odhadů expertů bývá uváděn kolem roku 2040.

Bylo by celkem smutné, kdyby úrovně singularity dosáhl některý ze spamovacích robotů. Nadopováni antidepresivy bychom šťastně běhali po ulicích s úžasnou značkovou kabelkou, do které bychom si pokládali extrémně dlouhý penis, chytře srolovaný tak, aby se nám nepletl pod úžasné značkové boty.


Reaguji na anubise:
vybrať si nahodnú webstránku a pokúsiť sa dopátrať po jej skutočnej url (s parametrami)
Jakákoliv URL je skutečná.
Mám třeba rozpracovaný jeden web, kde neexistuje žádná vazba mezi adresou a souborovým systémem. Chytám úplně všechno, co na danou doménu přijde, a zpracovávám to z jednoho veřejně neexistujícího místa. Neděje se tedy žádný přepis adresy.
Pokud chceš adresu autoservisu s parametrem, tak třeba www.autoserviszatko.sk/autoservis/?kuk=1… a bude-li ti vyučující tvrdit, že parametr kuk nic nedělá, požádej ho, ať ti prokáže, že opravdu vůbec nic nedělá. Postavíš ho tím před podobně nemožný úkol, jaký sám zadal.


Reaguji na snazimse:
Tohle mě zajímá, jak to pak funguje? Jakože si to poskládá z .xml souboru názvy, to mi nedává smysl. Funguje to někde?
Český validátor používá XSLT transformace. Základním výstupním formátem je XML, které vypadá cca takto, a to se transformuje buď na HTML, nebo na jednodušší XML, nebo na JSON (dost krkolomně)…
Takovéto blbnutí s XML je sice hezké, ale dost neefektivní. V další fázi vývoje validátoru jsem všechno ještě víc zkomplikoval a všiml jsem si, jak strašně je to pomalé. V půlce optimalizací mě pak přešla chuť tuto fázi dokončit a projekt jsem odložil.
snazimse
Profil
Chamurappi:

a to se transformuje buď na HTML, nebo na jednodušší XML, nebo na JSON (dost krkolomně)…

Na to nestačí obyčejný parser?

Takovéto blbnutí s XML je sice hezké, ale dost neefektivní. V další fázi vývoje validátoru jsem všechno ještě víc zkomplikoval a všiml jsem si, jak strašně je to pomalé. V půlce optimalizací mě pak přešla chuť tuto fázi dokončit a projekt jsem odložil.

To se nedivím, je to asi dost složité.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: