« 1 2
Autor Zpráva
_es
Profil
Marek Prokop:
Obecně mi odhadování slov z víceslovných řetězců bez standardních oddělovačů přijde problematické
Algoritmus na to je jednoduchý, nemusí ísť o „odhadovanie“, len je otázne, či a ktoré vyhľadávače to robia. Také rozdeľovanie by asi malo význam len pre text domény, nie pre bežný text na stránke. A či vôbec vyhľadávače slovám v doméne prikladajú nejakú významnú váhu, keďže ide o obsah webu a nie jeho adresu.
Marek Prokop
Profil
_es:
Algoritmus na to je jednoduchý

Zatím se vyhledavače ještě moc dobře nenaučily odhadovat ani význam řetězců reprezentujících jedno jediné slovo, takže o jednoduchosti algoritmu odhadujícího význam více neoddělených slov mám silné pochybnosti.
_es
Profil
Marek Prokop:
o jednoduchosti algoritmu odhadujícího význam více neoddělených slov mám silné pochybnosti.
Postupuje sa po jednotlivých znakoch a ak nasleduje znak, či postupnosť znakov, s ktorým by už slovo nepatrilo do množiny známych slov, slovo končí a začína nové.
Chamurappi
Profil
Reaguji na _es:
slovo končí a začína nové
Případně se může pokračovat dál pro případ, že by existovalo víc různých interpretací. Třeba expertsexchange.com obsahuje expert, experts, sex, exchange a change (neurčitý člen a/an nepočítám).

Skutečně v tom není zase tak velká věda, když má robot k dispozici obrovský vzorek slov.
_es
Profil
Chamurappi:
Dá sa vymyslieť veľa rôznych algoritmov, no najjednoduchší, ktorý by hľadal čo najdlhšie slová, od začiatku textu, by to rozdelil na: experts exchange. A je jednoznačný v závislosti od slovníka známych slov.

Okrem toho, pomlčka nie je „štandardným“ oddeľovačom slov. Môžu sa ňou oddeľovať aj časti jedného slova.
Amunak
Profil
Chamurappi:
Třeba expertsexchange.com obsahuje expert, experts, sex, exchange a change (neurčitý člen a/an nepočítám).
Ano, a přesně proto je dobré používat pomlčky v názvech. Když se na to doménové jméno takhle podívám, nevím, jestli mě na stránce čeká Experts Exchange, tedy asi nějaká stránka, kde si experti vyměňují [informace], nebo stránka, kde najdu expertní službu pro změnu pohlaví - Expert Sex Change.
Petr ZZZ
Profil
Reaguji na Chamurappiho (a _es):
Třeba expertsexchange.com obsahuje expert, experts, sex, exchange a change (neurčitý člen a/an nepočítám).

Ještě to obsahuje například čínské výrazy/transkripce tse, cha, chan, han, hang (což je zároveň německy „svah“), ang, chang, německé (i anglické) per, microsoftí xp, německé er, jméno a akronym pert... — Já nejsem programátor, ale když říkáte, že příslušný algoritmus není až tak složitý, nepřehlížíte tak trochu skutečnost, že na světě jsou kromě angličtiny ještě nějaké další jazyky?

Reaguji na _es:
„najjednoduchší, ktorý by hľadal čo najdlhšie slová, od začiatku textu, by to rozdelil na: experts exchange.“
Potíž vidím jednak v tom, že zájmem vyhledávače není dělit slova na co nejdelší části, ale nabízet relevantní výsledky, což nemá s otázkou počtu (a délky) částí řetězce souvislost, a také v tom, že možností jak nějaký řetězec rozdělit, je příliš mnoho, a nejčastěji pouze u jedné z těch možností asi bude možné očekávat relevanci na hledanou frázi (což vůbec nemusí souviset s otázkou relevance obsahu nalezené stránky).
Cody
Profil
Tak dá se předpokládat, že doména stránky nebude jediné místo, kde bude obsah pro vyhledávače:-)
Petr ZZZ
Profil
To tady snad nikdo nezpochybňuje.
Cody
Profil
Petr ZZZ:
To tady snad nikdo nezpochybňuje.
Jde mi o to, že pak ta diskuse mi přijde zbytečná. Pokud na webu experts exchange, tak vyhledávač jasně pochopí, jak to bylo v URL.
Chamurappi
Profil
Reaguji na Petra ZZZ:
nepřehlížíte tak trochu skutečnost, že na světě jsou kromě angličtiny ještě nějaké další jazyky?
Na odhadnutí jazyka obsahu se už nyní používá nějaká chytrá heuristika. Je-li tedy známý jazyk obsahu, jde tuto informaci využít i při čtení slov z domény.

zájmem vyhledávače není dělit slova na co nejdelší části, ale nabízet relevantní výsledky
Doménu člověk vidí, prohlížeče mu ji i zvýrazňují v adresním řádku z bezpečnostních důvodů. Co v ní vidí člověk, to by v ní měl chtít vidět vyhledávač (s jakou váhou, to je vedlejší). Lze předpokládat, že část lidí nad slovy v doméně přemýšlí víc, než by přemýšlela nad stejným shlukem písmenek v obyčejném textu.
_es
Profil
Chamurappi:
Lze předpokládat, že část lidí nad slovy v doméně přemýšlí víc, než by přemýšlela nad stejným shlukem písmenek v obyčejném textu.
Podobne som argumentoval aj v príbuznom vlákne. Vynechávať medzery v obyčajnom texte nemá zmysel - ten sa len číta. Názov domény sa často aj píše do adresového riadka a o tie oddeľovače je potom doména kratšia a rýchlejšie zapísateľná. Okrem toho, medzery v názve domény nie sú povolené. Tieto rozdiely by vyhľadávače mohli brať do úvahy. V obyčajnom texte by asi málokoho napadlo oddeľovať slová pomlčkami.
Petr ZZZ
Profil
Reaguji na Codyho:
„vyhledávač jasně pochopí“

Nepochopí. Možná něco v URL zvýrazní poté, co ji našel podle jiných kritérií. Pokud jde ale o hledání, vypadá to, že nepozná ani shop jako část řetězce workshop. Podobný příklad uvádí Marek Prokop už na předchozí straně (#28).
_es
Profil
Petr ZZZ:
Z jedného vyhľadávača, aj keď dominantného, sa nedá generalizovať správanie všetkých ostatných vyhľadávačov. Škoda, že Bing nemá operátor inurl. Sú nejaké iné významnejšie vyhľadávače s podobným operátorom?

nepozná ani shop jako část řetězce workshop
A prečo by to mal nejaký vyhľadávač „poznať“, keď ide o odlišné slová?
Petr ZZZ
Profil
Reaguji na _es:
„Sú nejaké iné významnejšie vyhľadávače s podobným operátorom?“
Seznam to umí taky: site:www.zabra.at inurl:denik

Dodatek: Pardon, to nebyl důkaz, že umí ten operátor. Tohle už ale myslím důkaz je: site:www.zabra.at inurl:publikationen versus site:www.zabra.at publikationen

„A prečo by to mal nejaký vyhľadávač „poznať“, keď ide o odlišné slová? “
Protože to je součást daného řetězce a někdo by zrovna to mohl hledat (a vědět, že to existuje, a on to zatrápený vyhledávač nenajde). Jiná věc je, jakou tomu má případně přikládat váhu – až zde by se mohl uplatnit sémantický význam, nevidím ale důvod, proč by měla sémantika úplně vyloučit nalezitelnost.
Cody
Profil
Petr ZZZ:
Pokud jde ale o hledání, vypadá to, že nepozná ani shop jako část řetězce workshop.
To je fakt. Zdá se, že jsem se mýlil. Omlouvám se.
« 1 2

Vaše odpověď

Mohlo by se hodit

Zajímavé čtení:
Poptávání výměny odkazů je na této diskusi nežádoucí.

Odkud se sem odkazuje


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: