Autor Zpráva
Mia99
Profil
Zdravím a prosím o pomoc. Mám dva excely, respektive nyní již dva sloupce na jednom listu a v každém seznam přípravků, bohužel zde však zafungovala lidová tvořivost a byť je většina přípravků v obou excelech stejná, názvy mají více či méně odlišné. Tak, jak se účetní dané společnosti naťukala do počítače.
Já mám za úkol porovnat, zda odebírá naše společnost stejné přípravky jako sesterská společnost, tedy jinými slovy porovnat neporovnatelné (díky nepřesným a neduplicitním názvům téhož přípravku). Jedná se o několik tisíc položek každé společnosti.

Potřebovala bych nějakým způsobem porovnat oba sloupce, ale ne na základě duplicity, ale na základě podobnosti. Už mi došla fantazie a nevím si s tím rady. Pěkně prosím, je tu někdo, kdo by mi pomohl, abych nemusela do rána ručně porovnávat?

Moc děkuji

Moderátor Davex: Nesouvisí s webdesignem. Přesouvám do kategorie Práce s počítačem.
Karel N.
Profil
hezké, porovnat dva sloupce na základě podobnosti :), víš o tom, že hledání podobnosti a korelace významů slovních spojení si vyhledávače vylamují zuby už několik dékád?

Nejjednodušší způsob je asi použít Open refine a v něm funkci Cluster (Edit cells >> Cluster and edit >> Projdeš doporučení, jak budeš hotov dáš Select all >> Merge selected and recluster >> Close), která ti navrhne podobné hodnoty na základě určité analýzy.

Další možnost je použít třeba levenstein distance v excelu a výsledek probrat přes kontigenční tabulky. http://stackoverflow.com/questions/4243036/levenshtein-distance-in-excel
_es
Profil
Mia99:
Problém bude v definovaní tej „podobnosti“. To bude zložitejšie než „porovnávanie ručne do rána“. Nejaké zautomatizovanie aj tak len pomôže v „ručnom porovnaní“ - nemôže ho nahradiť. Nestačilo by aj jednoduché zoradenie podľa ceny a „ručné“ sledovanie rozdielov?
Mia99
Profil
_es:
bohužel ne, protože druhá firma dodala jen názvy a počet ks.
Ale už je to pasé, zabralo to pár hodin a porovnala jsem to ručně.
Zkoušela jsem i fuzzy lookup, který porovnává přibližné texty, leč neúspěšně

Vaše odpověď

Mohlo by se hodit

Zvažte, zda se neobrátit na specializované fórum, toto se zabývá především webovou problematikou.

Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: