Autor Zpráva
nethor
Profil
Zdravím, řeším celkem zajímavý problém;
Vyhledávání duplicitních inzártů v DB (pro setřídění, ev. smazání - provádí Admin, manuálně).

Vyhledávání podle přesné shody není vhodné, protože při změně byť i jediného znaku se žádná duplicita nenajde. (Nezbední uživatelé by to mohli snadno obejít.)

Řeším to tak, že si z textu inzerátu vytáhnu řekněme 5 nejdelších slov a pak hledám jejich výskyt v ostatních inzerátech.
Uložím do pole id nalezených duplicitních inzerátů a pak je pomocí where id in (...) vypíšu.

Nevím ale, jak seřadit inzeráty tak, aby byly duplicity zjevně za sebou.

Dále by mě zajímalo, jestli tento problém nejde řešit nějak elegantněji např. přes fulltxt v mySQL.
Joker
Profil
nethor:
Možná by šlo použít fulltextové vyhledávání a pak se rozhodovat podle výsledného skóre.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: