Autor Zpráva
tchatchancek
Profil *
zdravicko,
vytvoril jsem si vyhledavac (mj. s relevanci), ale vyhledavac je celkem k nicemu, kdyz k zadanemu sovu nehleda i synonyma. Zkousel jsem neco hledat na netu, ale marne. Udelat si vlastni slovnik a pak do nej nasazet data by byl asi beh na dlouho trat... Neexistuje jiny zpusob? At uz jakykoli
ninja
Profil
Stahnout slovnik, ktery synonyma obsahuje. Nebo nepouzivat vlastni vyhledavac a duverovat treba Google CSE.
Joker
Profil
Přímo synonyma asi jinak udělat nejde- jako že bych dal vyhledat třeba "počítač" a program nějak věděl, že to je slovo se stejným významem, jako třeba "PC", "poč", "komp",...
Navíc slova mívají více významů, takže může být velký problém určit synonyma. Třeba vyhledávám "kolo"... synonymum může být "bicykl", "disk", "pneumatika", "etapa",... podle toho, jestli jsem myslel kolo na ježdění, kolo u auta nebo kolo jako část závodu či jednání.

Varianta by byla řekněme "statistická" metoda: vyhledám na zadanou frázi, vezmu několik nejrelevantnějších výsledků a ty použiju pro druhé hledání.
Tohle dělá třeba MySQL při MATCH ... AGAINST ... WITH QUERY EXPANSION (fulltextové hledání s rozšířením dotazu).
http://dev.mysql.com/doc/refman/5.1/en/fulltext-query-expansion.html
srigi
Profil
tchatchancek
jedinou rozumnou moznostou je tagovanie kazdeho clanku. Ked napises clanok, vyplnis tagy:
napr. clanok o inauguracii Obamu, vyplnis tagy napr.: usa, obama, president a pod.

Dolezitou podmienkou fungovania je odstranenie diakritiky a prevedenie na male pismena, ako pri vytvarani clankov, tak aj pri spracovavani vyhladavacieho policka.
Joker
Profil
srigi
Dolezitou podmienkou fungovania je odstranenie diakritiky a prevedenie na male pismena
Proč? Aby když budu chtít třeba články o Českých dráhách (ČD), vrátilo mi to články týkající se CDček?

A IMHO 1. nemusí mít vůbec možnost zdroj dat nějak tagovat a 2. fulltextové vyhledávání bude i tak přesnější (tagování bude trpět problémy se synonymy a různými významy téhož slova).
tchatchancek
Profil *
panove diky za cenne rady, souhlasim s Jokerem, ze tagovani by nevedlo k uspesnemu cili. Nejvhodnejsi volbou je asi tedy to "statisticke vyhledavani"
imploder
Profil
srigi
Dolezitou podmienkou fungovania je odstranenie diakritiky a prevedenie na male pismena, ako pri vytvarani clankov, tak aj pri spracovavani vyhladavacieho policka.
To je blbost, pak by vyhledávač nemohl rozlišit písmena s diakritikou / bez ní a velká/malá i tam kde na tom záleží.
srigi
Profil
BTW, pocul som, ze novy PostgreSQL 8.3 bude v selectoch, nieco ako synonyma alebo sklonovanie podporovat. Treba vsak pockat, kym komunita vytvori slovniky.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: