Word2Vec

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Word2Vec je způsob zpracování přirozeného jazyka, kdy jsou slova reprezentována vektory. Bezkontextový model byl publikovan v roce 2013 výzkumníkem Tomasem Mikolovem, pracujícím pro Google. Algoritmus word2vec využívá model neuronové sítě k učení slovních asociací z velkého korpusu textu. Po natrénování může takový model odhalit synonyma nebo navrhnout další slova pro další část věty. Word2vec reprezentuje každé odlišné slovo určitým seznamem čísel, kterému se říká vektor. Vektory jsou pečlivě vybrány tak, aby zachycovaly sémantické a syntaktické vlastnosti slov; jednoduchá matematická funkce (kosinus úhlu mezi vektory) tak může indikovat úroveň sémantické podobnosti mezi slovy reprezentovanými těmito vektory.

Bezkontextové modely, jako je word2vec nebo GloVe, vytvářejí pro každé slovo ve slovníku jedinečnou reprezentaci, přičemž BERT bere v úvahu kontext pro každý výskyt daného slova. Zatímco vektor pro slovo anglické slovo "run" bude mít stejnou reprezentaci z word2vec pro oba jeho výskyty ve větách "He is running a company" a "He is running a marathon", BERT poskytne kontextové osazení, které se bude lišit v závislosti na větě. +more Nově se právě pro vnoření slov používají novější modely jako BERT či GPT-3.

Odkazy

Reference

Externí odkazy

[url=https://www.tensorflow.org/tutorials/text/word2vec]Oficiální stránka projektu[/url]

Kategorie:Počítačová lingvistika Kategorie:Zpracování přirozeného jazyka Kategorie:Umělé neuronové sítě

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top