Autor Zpráva
Silver8000
Profil
Ahoj vsem zajimalo by me jestli se da nejak detekovat nazev prizpevku ktery neni v cestine?
A to bud pres DB nebo PHP.
V databazi mam mnoho prizpevku s ceskymi nazvi a mezi nima i nektere v cizim jazyce.

Pokud nekdo neco zna nebo by vedel tak prosim o radu.
Dale bych z toho chtel vytahnout pouze cizi nazvi a udelat promenou pro navrh noveho jmena temata.
juriad
Profil
Tvůj projev rozhodně není v češtině. Má ten detektor detekovat i tento tvůj příspěvek?

Napadají mě varianty:
1) provést frekvenční analýzu hlásek a porovnat se spektrem českého jazyka
2) pokud ti nezáleží na slovenštině, tak bys mohl zkoumat přítomnost diakritiky
3) mít slovník českých slov a zjišťovat, zda se neobjevuje nečeské příliš často
4) mít slovník nečeských slov a zjišťovat, zda se neobjevuje nečeské příliš často
5) mít slovník typicky českých slov, jejichž použití automaticky znamená, že příspěvek je česky
6) ?? pokud Google translation API umí detekovat jazyk, tak mu prostě ten příspěvek předhodit
Tori
Profil
Silver8000:
A jak byste strojově vyhodnotil kombinaci jazyků? Např. "Kdo tu posloucha Weather Report anebo The Doors?"
Silver8000
Profil
Poznamka : Moje vety v cestine nejsou protoze mam anglickou klavesnici a nebudu hledat tlacitka s diakritikou

Tori:
A jak byste strojově vyhodnotil kombinaci jazyků? Např. "Kdo tu posloucha Weather Report anebo The Doors?"
v tom to pripade bych prelozil anglicky text na cesky a ulozil bych celkove zneni
tiso
Profil
Môžeš skúsiť použiť napríklad knižnicu LanguageDetector.

Vaše odpověď

Mohlo by se hodit


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: