Normalizovaná googlovská vzdálenost

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Normalizovaná googlovská vzdálenost je metrika sémantické vzdálenosti, odvozená od počtu výsledků vrácených Google vyhledávacím enginem pro daná klíčová slova. Klíčová slova, která mají blízký význam v přirozeném jazyce, jsou si také blízká v rámci Normalizované googlovské vzdálenosti. Výpočet pro dva vyhledávané pojmy x a y je:

\operatorname{NGD}(x,y) = \frac{\max\{\log f(x), \log f(y)\} - \log f(x,y)} {\log N - \min\{\log f(x), \log f(y)\}}

Kde N je celkový počet webový stránek, které Google prohledává, vynásoben průměrným počtem výskytu jednotlivých hledaných pojmů na stránkách. f(x) a f(y) značí počet výsledků pro hledané pojmy x a y a f(x, y) je počet stránek, kde se vyskytují oba pojmy.

Pokud NGD(x,y)=0 pak jsou pojmy vnímané jako tak podobné, jak jen to lze. Pokud NGD(x,y)\geq 1 pak jsou pojmy velmi odlišné. +more Jestliže se pojmy vyskytují samostatně ale nikdy společně na stejné stránce, jejich vzdálenost bude nekonečno. Pokud se vždy vyskytují spolu, bude nula.

Příklad

Vyhledávání pojmu "Shakespeare" dalo 130 000 000 výsledků, vyhledávání pojmu "Macbeth" dalo 26 000 000 výsledků a vyhledávání "Shakespeare Macbeth" dalo 20 800 000 výsledků. Celkový počet stránek, které Google prohledává byl odhadnut na 25 270 000 000. +more Za předpokladu, že průměrně je na stránce 1000 hledaných pojmů, dostáváme N = 25 270 000 000 000.

Celkový vzorec pak je:

NGD(Shakespeare, Macbeth) = (26,95 - 24,31)/(44,52 - 24,63) = 0,13.

Pojmy "Shakespeare" a "Macbeth" jsou si velice blízké.

Původ

Vzorec je odvozen od normalizované kompresní vzdálenosti.

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top