Normalizovaná googlovská vzdálenost
Author
Albert FloresNormalizovaná googlovská vzdálenost je metrika sémantické vzdálenosti, odvozená od počtu výsledků vrácených Google vyhledávacím enginem pro daná klíčová slova. Klíčová slova, která mají blízký význam v přirozeném jazyce, jsou si také blízká v rámci Normalizované googlovské vzdálenosti. Výpočet pro dva vyhledávané pojmy x a y je:
\operatorname{NGD}(x,y) = \frac{\max\{\log f(x), \log f(y)\} - \log f(x,y)} {\log N - \min\{\log f(x), \log f(y)\}}
Kde N je celkový počet webový stránek, které Google prohledává, vynásoben průměrným počtem výskytu jednotlivých hledaných pojmů na stránkách. f(x) a f(y) značí počet výsledků pro hledané pojmy x a y a f(x, y) je počet stránek, kde se vyskytují oba pojmy.
Pokud NGD(x,y)=0 pak jsou pojmy vnímané jako tak podobné, jak jen to lze. Pokud NGD(x,y)\geq 1 pak jsou pojmy velmi odlišné. +more Jestliže se pojmy vyskytují samostatně ale nikdy společně na stejné stránce, jejich vzdálenost bude nekonečno. Pokud se vždy vyskytují spolu, bude nula.
Příklad
Vyhledávání pojmu "Shakespeare" dalo 130 000 000 výsledků, vyhledávání pojmu "Macbeth" dalo 26 000 000 výsledků a vyhledávání "Shakespeare Macbeth" dalo 20 800 000 výsledků. Celkový počet stránek, které Google prohledává byl odhadnut na 25 270 000 000. +more Za předpokladu, že průměrně je na stránce 1000 hledaných pojmů, dostáváme N = 25 270 000 000 000.
Celkový vzorec pak je:
NGD(Shakespeare, Macbeth) = (26,95 - 24,31)/(44,52 - 24,63) = 0,13.
Pojmy "Shakespeare" a "Macbeth" jsou si velice blízké.
Původ
Vzorec je odvozen od normalizované kompresní vzdálenosti.