Autor Zpráva
domcat
Profil
Zdravim,

pracujem na projekte, kde je ulohou parsovat (scrapovat) rozne stranky s roznymi kodovaniami (UTF-8, WINDOWS-1250, ISO-8859-2). Moj problem sa tyka prave tychto kodovani. Databaza je tvorena v kodovani UTF-8 avsak mam problem s prevodom kodovania ziskanych dat do tohto kodovania, resp. problem s detekciou.

Ako riesit tento problem? Viem, ze to nie je jednoduche, ale urcite existuje nejake "ako tak funkcne" riesenie alebo postup. Viem, ze ked chcem konvernut kodovanie napr. cez kniznicu iconv, tak musim poznat z akeho do akeho kodovania idem. Co vsak ked to neviem presne urcit? Preto by to chcelo "detekciu" na zaklade ziskaneho textu (retazca).

Mozno vsak na to len idem zle, kedze nemam velmi skusenosti co sa kodovani tyka.

Vopred dakujem za akekolvek rady.
Alphard
Profil
http://latrine.dgx.cz/autoczech-aneb-automaticka-detekce-kodovani
domcat
Profil
Toto bolo rychle, vdaka. Idem otestovat aku to ma uspesnost ;-)

Vaše odpověď

Mohlo by se hodit


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: