Autor Zpráva
unlucky
Profil
Jak lze vypsat nejdůležitější slova v článku? Aby to nezáleželo na množství, ale na hodnotě..

jestli takový skript vůbec existuje
jksdf
Profil
A ako má script poznať najdôležitejšie slová?
unlucky
Profil
právě se ptám jestli na to je nějaký algoritmus nebo rovnou skript :P
Majkl578
Profil
unlucky:
Nejdůležitější === nejčastější?
Alphard
Profil
unlucky:
je nějaký algoritmus nebo rovnou skript
Zeptejte se u googlu... Žádná funkce nejdůležitější slova nenajde. Vyhledáváče pracují s obrovským množstvím stránek na základě kontextu.
Jestli tím textem myslíte html, můžete třeba regulára vytahat nadpisy, tučné písmo a k tomu nejčastější fráze, ale dál se asi nedostanete.
Tag cloud je něco trochu jiného. Slova se nevybírají z jednoho textu, ale dlouhodobým sledováním uživatelů. Časteji jsem ale viděl, že někdo vytvoří statický seznam a podle počtu kliku uživatelů na jednotlivé odkazy se jim potom mění velikost. Na jeho vytvoření už najdete tunu návodů.
Joker
Profil
Majkl578:
Nejdůležitější === nejčastější?
No to právě ne. Nejčastější budou asi předložky a spojky.
Viz zatím jediný delší text tady - Alphardův příspěvek. Tam je nejčastější slovo "se", následované "a", "ale" a "na".
Důležitá budou spíš podstatná jména, případně slovesa, která se vyskytují jednou za několik vět. A ještě navíc se autoři textů aktivně snaží četnost právě těch důležitých slov snižovat, protože opakování stále stejných slov nevypadá hezky.

unlucky:
Jak lze vypsat nejdůležitější slova v článku?
No jasně.
Do vstupního formuláře při psaní článku se přidá políčko "Klíčová slova" a skript pak prostě zobrazí klíčová slova asociovaná s článkem :-)

Ale myslím, že by šel sestavit i algoritmus na hledání důležitých slov. Jen by to bylo extrémně obtížné.
Asi by bylo potřeba podle pravidel daného jazyka analyzovat věty v textu a potom podle významového slovníku zvýšit důležitost různých slov použitých ve stejném významu.
unlucky
Profil
na googlu jsem zatím neviděl žádný, který by reagoval jinak než na množství slov (jsou tam třeba omezení, že se berou od 3 slabik a výše a stopslova atd..)

Teď mě napadá snad, že by se v textu hledalo slova příbuzná titulku

Vaše odpověď

Mohlo by se hodit


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: