WordNet

Technology

12 hours ago

Author

WordNet je lexikální databáze pro anglický jazyk vyvíjená od roku 1985 týmem okolo profesora psychologie George Armitage Millera v laboratoři kognitivních věd na Princetonské univerzitě. Obecněji se jako WordNet, případně přesněji lexikální databáze typu WordNet či také sémantická síť typu WordNet, označují i příbuzné projekty týkající se jiných jazyků (např. #Český WordNet|Český WordNet). Původní anglická databáze pak v takovém kontextu bývá někdy pro rozlišení nazývána princetonský WordNet.

WordNet seskupuje slova do synonymických řad zvaných synsety (anglicky synsets), poskytuje krátké obecné definice jejich významu a zachycuje různé sémantické vztahy, které mezi synsety existují. To činí WordNet jakýmsi intuitivněji použitelným křížencem slovníku a tezauru a současně jazykovým zdrojem využitelným v aplikacích v oblastech zpracování přirozeného jazyka a umělé inteligence. +more Data princetonského WordNetu a související programové vybavení byly uvolněny licencí typu BSD a jsou poskytovány k bezplatnému stažení a použití. Databázi je také možno konzultovat on-line prostřednictvím internetu.

Obsah databáze

Rozsah

Nejnovější verze WordNetu je 3. 1. +more Ve verzi 3. 0 obsahuje databáze 155 287 slov uspořádaných do 117 659 synsetů, čímž je pokryto 206 941 slovních významů (dvojic slovo-smysl). V komprimované formě mají data velikost okolo 12 megabytů.

Synsety

WordNet zahrnuje podstatná jména, slovesa, přídavná jména a příslovce, ale vzhledem k jejich odlišným gramatickým vlastnostem uchovává data pro každý z těchto slovních druhů odděleně. Jiné slovní druhy jako jsou zájmena či předložky nejsou součástí databáze. +more Každý synset se skládá z jednoho či více slov nebo slovních spojení stejného slovního druhu (slovním spojením je skupina slov nesoucí specifický ustálený význam, např. "babí léto"). Následuje ukázka několika synsetů různých typů z #Český WordNet|Českého WordNetu:.

* substantivní synset: louže:1, kaluž:1, tratoliště:1 * slovesný synset: chvátat:1, kvapit:2, spěchat:1 * adjektivní synset: jednoduchý:1, prostý:1 * adverbiální synset: postupně:1, pozvolna:1

Polysémie

U homonym a obecně slov s více významy (polysémických) náleží každý význam do jiného synsetu a jednotlivé významy téhož slova jsou v takovém případě v rámci téhož slovního druhu od sebe odlišovány tzv. číslem smyslu uváděným za znakem dvojtečka. +more Význam synsetu bývá také často popsán prostřednictvím glosy (tj. definice a/nebo příkladu použití). Identifikaci významu synsetu napomáhají také #Sémantické vztahy|sémantické vztahy, např. u podstatných jmen příslušný nadřazený pojem. Příkladem víceznačného slova je "koruna":.

* koruna:1 = "ozdoba hlavy kruhového tvaru, odznak panovnické hodnosti" * koruna:2 - nadřazeným pojmem je synset "mince:1, peníze:1, penízek:1" * koruna:3 - nadřazeným pojmem je synset "hořejšek:1, vrch:1"

Sémantické vztahy

Sémantickými vztahy je s jinými synsety propojena velká část synsetů ve WordNetu. Typy těchto vztahů se liší v závislosti na slovním druhu. +more Jedná se mj. o sémantické vztahy těchto typů: * Mezi podstatnými jmény: ** nadřazený pojem: Y je nadřazeným pojmem k X, jestliže každé X je (druhem) Y (psovitá šelma je nadřazeným pojmem k pes, protože každý pes je členem obecnější kategorie psovitých šelem) ** podřazený pojem: Y je podřazeným pojmem k X, jestliže každé Y je (druhem) X (pes je podřazeným pojmem k psovitá šelma) ** souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (vlk je souřadným pojmem k pes; obdobně pes je souřadným pojmem k vlk) ** holonymum (vztah celek-část): Y je holonymem k X, jestliže X je (sou)částí Y (budova je holonymem k okno) ** meronymum (vztah část-celek): Y je meronymem k X, jestliže Y je (sou)částí X (okno je meronymem k budova) * Mezi slovesy: ** nadřazený pojem: sloveso Y je nadřazeným pojmem ke slovesu X, jestliže činnost X je (druhem) Y (vnímat je nadřazeným pojmem k poslouchat) ** troponymum: sloveso Y je troponymem ke slovesu X, jestliže Y znamená dělat X nějakým způsobem (šeptat je troponymem k mluvit) ** vyplývání (entailment): sloveso Y vyplývá ze slovesa X, jestliže pro dělání X je nutné současně dělat Y (spát vyplývá z chrápat) ** souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (šeptat je souřadným pojmem k křičet; obdobně křičet je souřadným pojmem k šeptat) * Mezi přídavnými jmény: ** příbuzné podstatné jméno ** podobnost ** sloveso k příčestí * Mezi příslovci: ** příbuzné přídavné jméno.

Zatímco sémantický vztah platí pro všechna slova ze synsetu, kterého se týká, protože tato slova jsou si navzájem synonymická a sdílejí společný význam, lexikálními vztahy je možné propojovat mezi sebou jednotlivá slova a zachytit tak např. vztah antonymie (opaku).

Český WordNet

Lexikální databáze typu WordNet pro český jazyk pod názvem Český WordNet (anglicky Czech WordNet) je od roku 1998 vyvíjena v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně. Vývoj započal v rámci druhé fáze projektu EuroWordNet a pokračoval dále v rámci projektu BalkaNet, společně s vývojem podobných databází pro některé další evropské jazyky. +more Za účelem propojení lexikálních databází pro různé jazyky byl zaveden tzv. Inter-Lingual Index (zkratka ILI), který každému anglickému synsetu v princetonském WordNetu přiřazuje unikátní identifikátor (odvozený z jeho pozice v dané verzi databáze); synsety v neanglických databázích jsou pak doplněny o ILI-identifikátor ekvivalentního synsetu anglického.

Základních 1016 konceptů Českého WordNetu bylo nalezeno počítačovou analýzou definic ve Slovníku spisovné češtiny, další slova byla získána ze slovníku Lingea Lexicon a z připravovaného Výkladového slovníku češtiny. První verze Českého WordNetu nakonec v roce 1999 obsahovala asi 13 až 15 tisíc synsetů.

Ve stavu z května 2011 obsahuje Český WordNet již 34 026 slov uspořádaných do 28 478 synsetů, což pokrývá 47 542 slovních významů (dvojic slovo-smysl). Ze synsetů je 21 018 (74 %) substantivních, 5162 (18 %) synsetů slovesných, 2129 (7 %) synsetů adjektivních a pouze 166 (1 %) synsetů adverbiálních. +more Synsety Českého WordNetu jsou prostřednictvím ILI propojeny se starší verzí princetonského WordNetu 2. Slovesné synsety jsou od roku 2005 vytvářeny z větší části odděleně v rámci databáze valenčních rámců VerbaLex (v květnu 2011 obsahovala asi 20 000 slovesných rámců).

V rámci diplomové práce obhájené na Fakultě informatiky Masarykovy univerzity v červnu 2011 byl proveden pokus o rozšíření Českého WordNetu překladem anglických slov ze stávajících synsetů princetonského WordNetu prostřednictvím Velkého anglicko-českého slovníku Josefa Fronka. Výsledkem bylo 36 228 přidaných slovních významů (dvojic slovo-smysl) a 12 403 vytvořených synsetů, což znamená rozšíření původních dat o 76 % (slovní významy), resp. +more 43 % (synsety). Tato data však dosud nebyla zahrnuta do Českého WordNetu, i vzhledem k nutnosti jejich manuální kontroly.

Important

valence (lingvistika)

BSD licence

mnohoznačnost

Odkazy

Reference

Externí odkazy

[url=http://wordnet. princeton. +moreedu/]Domovská stránka projektu WordNet[/url] * [url=http://www. globalwordnet. org/]Global Wordnet[/url] + [url=http://deb. fi. muni. cz/clients-debgrid-cs. php]DEBGrid[/url] (webový interface Global Wordnet).

Kategorie:Zpracování přirozeného jazyka Kategorie:Slovníky Kategorie:Databáze