Autor | Zpráva | ||
---|---|---|---|
Silver8000 Profil |
#1 · Zasláno: 23. 5. 2013, 22:34:02
Ahoj vsem zajimalo by me jestli se da nejak detekovat nazev prizpevku ktery neni v cestine?
A to bud pres DB nebo PHP. V databazi mam mnoho prizpevku s ceskymi nazvi a mezi nima i nektere v cizim jazyce. Pokud nekdo neco zna nebo by vedel tak prosim o radu. Dale bych z toho chtel vytahnout pouze cizi nazvi a udelat promenou pro navrh noveho jmena temata. |
||
juriad Profil |
#2 · Zasláno: 23. 5. 2013, 23:00:33
Tvůj projev rozhodně není v češtině. Má ten detektor detekovat i tento tvůj příspěvek?
Napadají mě varianty: 1) provést frekvenční analýzu hlásek a porovnat se spektrem českého jazyka 2) pokud ti nezáleží na slovenštině, tak bys mohl zkoumat přítomnost diakritiky 3) mít slovník českých slov a zjišťovat, zda se neobjevuje nečeské příliš často 4) mít slovník nečeských slov a zjišťovat, zda se neobjevuje nečeské příliš často 5) mít slovník typicky českých slov, jejichž použití automaticky znamená, že příspěvek je česky 6) ?? pokud Google translation API umí detekovat jazyk, tak mu prostě ten příspěvek předhodit |
||
Tori Profil |
#3 · Zasláno: 23. 5. 2013, 23:08:23
Silver8000:
A jak byste strojově vyhodnotil kombinaci jazyků? Např. "Kdo tu posloucha Weather Report anebo The Doors?" |
||
Silver8000 Profil |
Poznamka : Moje vety v cestine nejsou protoze mam anglickou klavesnici a nebudu hledat tlacitka s diakritikou
Tori: > A jak byste strojově vyhodnotil kombinaci jazyků? Např. "Kdo tu posloucha Weather Report anebo The Doors?" v tom to pripade bych prelozil anglicky text na cesky a ulozil bych celkove zneni |
||
tiso Profil |
#5 · Zasláno: 24. 5. 2013, 00:10:45
Môžeš skúsiť použiť napríklad knižnicu LanguageDetector.
|
||
Časová prodleva: 11 let
|
0