Autor Zpráva
tomas657
Profil
Zdravím, potrebujem poradiť. Predstavme si situáciu, že máme desiatky rôznych textov venovaných rôznym kultúrnym podujatiam. Každý text obsahuje rôzne informácie týkajúce sa daného podujatia - dátum konania, miesto konania, téma (zameranie) podujatia, atď. Samozrejme, v každom texte sú údaje uvedené inak, napr. dátum môže byť zadaný čisto číselne, čisto slovne alebo kombináciou čísiel a slov (mesiac slovom). Taktiež napr. miesta konania môžu byť uvedené rôzne, napr. podujatie XY sa bude konať v Prahe alebo Praha bude hostiť podujatie XY. Jednoducho povedané, texty nemajú rovnakú štruktúru, nie sú štrukturované. A teraz k veci - potrebujem poradiť, ako z takýchto neštrukturovaných textov vytiahnuť podstatné informácie (= ako ich v texte nájsť a identifikovať), aby som ich následne mohol uložiť do databázy v štrukturovanej podobe (samostatný stĺpec pre dátum konania, miesto konania, atď.)

Skúšal som hľadať na internete, no našiel som iba rôzne nástroje na analýzu textu, ktoré poskytovali len také informácie ako počet znakov, počet slov, počet výskytov jednotlivých písmen, atď., no toto nie je to, čo potrebujem. Potrebujem analyzovať rôzne texty s cieľom vytiahnuť z nich informácie do štrukturovanej podoby.

Za všetky rady ďakujem.
Jan Tvrdík
Profil
Neexistuje způsob, jak to řešit obecně a spolehlivě. Můžeš si ručně vytvořit seznam všech tvarů, ve kterých se dané informace mohou vyskytovat a pak zkoušet informace pomocí regulárních výrazů vyhledávat. Čím víc tvarů robota naučíš, tím větší úspěšnost mít bude.

Vaše odpověď

Mohlo by se hodit


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0