Word2Vec

Technology

12 hours ago

Author

Word2Vec je způsob zpracování přirozeného jazyka, kdy jsou slova reprezentována vektory. Bezkontextový model byl publikovan v roce 2013 výzkumníkem Tomasem Mikolovem, pracujícím pro Google. Algoritmus word2vec využívá model neuronové sítě k učení slovních asociací z velkého korpusu textu. Po natrénování může takový model odhalit synonyma nebo navrhnout další slova pro další část věty. Word2vec reprezentuje každé odlišné slovo určitým seznamem čísel, kterému se říká vektor. Vektory jsou pečlivě vybrány tak, aby zachycovaly sémantické a syntaktické vlastnosti slov; jednoduchá matematická funkce (kosinus úhlu mezi vektory) tak může indikovat úroveň sémantické podobnosti mezi slovy reprezentovanými těmito vektory.

Bezkontextové modely, jako je word2vec nebo GloVe, vytvářejí pro každé slovo ve slovníku jedinečnou reprezentaci, přičemž BERT bere v úvahu kontext pro každý výskyt daného slova. Zatímco vektor pro slovo anglické slovo "run" bude mít stejnou reprezentaci z word2vec pro oba jeho výskyty ve větách "He is running a company" a "He is running a marathon", BERT poskytne kontextové osazení, které se bude lišit v závislosti na větě. +more Nově se právě pro vnoření slov používají novější modely jako BERT či GPT-3.

Odkazy

Reference

Externí odkazy

[url=https://www.tensorflow.org/tutorials/text/word2vec]Oficiální stránka projektu[/url]

Kategorie:Počítačová lingvistika Kategorie:Zpracování přirozeného jazyka Kategorie:Umělé neuronové sítě

Word2Vec

Author

Odkazy

Reference

Externí odkazy

Share this post:

Leave a Comment

Enjoy this post? Join Cesko.wiki

Don’t forget to share it