Autor | Zpráva | ||
---|---|---|---|
tchatchancek Profil * |
#1 · Zasláno: 21. 1. 2009, 08:24:05
zdravicko,
vytvoril jsem si vyhledavac (mj. s relevanci), ale vyhledavac je celkem k nicemu, kdyz k zadanemu sovu nehleda i synonyma. Zkousel jsem neco hledat na netu, ale marne. Udelat si vlastni slovnik a pak do nej nasazet data by byl asi beh na dlouho trat... Neexistuje jiny zpusob? At uz jakykoli |
||
ninja Profil |
#2 · Zasláno: 21. 1. 2009, 09:14:13
Stahnout slovnik, ktery synonyma obsahuje. Nebo nepouzivat vlastni vyhledavac a duverovat treba Google CSE.
|
||
Joker Profil |
#3 · Zasláno: 21. 1. 2009, 09:33:22
Přímo synonyma asi jinak udělat nejde- jako že bych dal vyhledat třeba "počítač" a program nějak věděl, že to je slovo se stejným významem, jako třeba "PC", "poč", "komp",...
Navíc slova mívají více významů, takže může být velký problém určit synonyma. Třeba vyhledávám "kolo"... synonymum může být "bicykl", "disk", "pneumatika", "etapa",... podle toho, jestli jsem myslel kolo na ježdění, kolo u auta nebo kolo jako část závodu či jednání. Varianta by byla řekněme "statistická" metoda: vyhledám na zadanou frázi, vezmu několik nejrelevantnějších výsledků a ty použiju pro druhé hledání. Tohle dělá třeba MySQL při MATCH ... AGAINST ... WITH QUERY EXPANSION (fulltextové hledání s rozšířením dotazu). http://dev.mysql.com/doc/refman/5.1/en/fulltext-query-expansion.html |
||
srigi Profil |
#4 · Zasláno: 21. 1. 2009, 11:14:53
tchatchancek
jedinou rozumnou moznostou je tagovanie kazdeho clanku. Ked napises clanok, vyplnis tagy: napr. clanok o inauguracii Obamu, vyplnis tagy napr.: usa, obama, president a pod. Dolezitou podmienkou fungovania je odstranenie diakritiky a prevedenie na male pismena, ako pri vytvarani clankov, tak aj pri spracovavani vyhladavacieho policka. |
||
Joker Profil |
#5 · Zasláno: 21. 1. 2009, 13:30:41
srigi
Dolezitou podmienkou fungovania je odstranenie diakritiky a prevedenie na male pismena Proč? Aby když budu chtít třeba články o Českých dráhách (ČD), vrátilo mi to články týkající se CDček? A IMHO 1. nemusí mít vůbec možnost zdroj dat nějak tagovat a 2. fulltextové vyhledávání bude i tak přesnější (tagování bude trpět problémy se synonymy a různými významy téhož slova). |
||
Časová prodleva: 3 dny
|
|||
tchatchancek Profil * |
#6 · Zasláno: 24. 1. 2009, 08:23:56
panove diky za cenne rady, souhlasim s Jokerem, ze tagovani by nevedlo k uspesnemu cili. Nejvhodnejsi volbou je asi tedy to "statisticke vyhledavani"
|
||
Časová prodleva: 27 dní
|
|||
imploder Profil |
#7 · Zasláno: 19. 2. 2009, 23:02:38
srigi
„Dolezitou podmienkou fungovania je odstranenie diakritiky a prevedenie na male pismena, ako pri vytvarani clankov, tak aj pri spracovavani vyhladavacieho policka.“ To je blbost, pak by vyhledávač nemohl rozlišit písmena s diakritikou / bez ní a velká/malá i tam kde na tom záleží. |
||
srigi Profil |
#8 · Zasláno: 20. 2. 2009, 07:01:59
BTW, pocul som, ze novy PostgreSQL 8.3 bude v selectoch, nieco ako synonyma alebo sklonovanie podporovat. Treba vsak pockat, kym komunita vytvori slovniky.
|
||
Časová prodleva: 15 let
|
0