Autor | Zpráva | ||
---|---|---|---|
Mia99 Profil |
Zdravím a prosím o pomoc. Mám dva excely, respektive nyní již dva sloupce na jednom listu a v každém seznam přípravků, bohužel zde však zafungovala lidová tvořivost a byť je většina přípravků v obou excelech stejná, názvy mají více či méně odlišné. Tak, jak se účetní dané společnosti naťukala do počítače.
Já mám za úkol porovnat, zda odebírá naše společnost stejné přípravky jako sesterská společnost, tedy jinými slovy porovnat neporovnatelné (díky nepřesným a neduplicitním názvům téhož přípravku). Jedná se o několik tisíc položek každé společnosti. Potřebovala bych nějakým způsobem porovnat oba sloupce, ale ne na základě duplicity, ale na základě podobnosti. Už mi došla fantazie a nevím si s tím rady. Pěkně prosím, je tu někdo, kdo by mi pomohl, abych nemusela do rána ručně porovnávat? Moc děkuji Moderátor Davex: Nesouvisí s webdesignem. Přesouvám do kategorie Práce s počítačem.
|
||
Karel N. Profil |
#2 · Zasláno: 8. 12. 2014, 21:03:49
hezké, porovnat dva sloupce na základě podobnosti :), víš o tom, že hledání podobnosti a korelace významů slovních spojení si vyhledávače vylamují zuby už několik dékád?
Nejjednodušší způsob je asi použít Open refine a v něm funkci Cluster (Edit cells >> Cluster and edit >> Projdeš doporučení, jak budeš hotov dáš Select all >> Merge selected and recluster >> Close), která ti navrhne podobné hodnoty na základě určité analýzy. Další možnost je použít třeba levenstein distance v excelu a výsledek probrat přes kontigenční tabulky. http://stackoverflow.com/questions/4243036/levenshtein-distance-in-excel |
||
_es Profil |
#3 · Zasláno: 9. 12. 2014, 01:05:04
Mia99:
Problém bude v definovaní tej „podobnosti“. To bude zložitejšie než „porovnávanie ručne do rána“. Nejaké zautomatizovanie aj tak len pomôže v „ručnom porovnaní“ - nemôže ho nahradiť. Nestačilo by aj jednoduché zoradenie podľa ceny a „ručné“ sledovanie rozdielov? |
||
Mia99 Profil |
#4 · Zasláno: 9. 12. 2014, 20:12:55
_es:
bohužel ne, protože druhá firma dodala jen názvy a počet ks. Ale už je to pasé, zabralo to pár hodin a porovnala jsem to ručně. Zkoušela jsem i fuzzy lookup, který porovnává přibližné texty, leč neúspěšně |
||
Časová prodleva: 9 let
|
0