Lemmatizace

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Lemmatizace je určení lemmatu (základního slovního tvaru) k ohýbanému slovnímu tvaru. Lemmatizátor je nástroj (např. počítačový program), který vytvoří (vyhledá v databázi) k určitému tvaru slova základní tvar, tzv. lemma. Doplňkovou funkcí lemmatizátoru jsou informace o mluvnických kategoriích (např. jmenných a slovesných) k danému tvaru. Např. pro tvar „barvě“ lemmatizátor vrátí tvar „barva“, případně doplňkovou informaci podstatné jméno, ženský rod, jednotné číslo, 3./6. pád.

Lemmatizace se např. využívá se pro vyhledávání ve fulltextových databázích. +more Pro fulltextové vyhledávání se ovšem využívají i podobně strukturovaná data sloužící k automatické kontrole pravopisu (např. slovníky pro hunspell).

Využití lemmatizace

# Fulltextové vyhledávání: např. pro zadanou frázi „sběrný dvůr“ se vyhledají i dokumenty obsahující tato slova v jiných pádech a číslech (sběrné dvory, umístění sběrných dvorů). +more # Korpusová lingvistika: informace z morfologického analyzátoru se využívá při značkování korpusů. Lemmatizaci využívá software QUITA (Quantitative Index Text Analyzer), který dokáže posuzovat a analyzovat rozsáhlé texty, např. bohatost slovní zásoby a další lingvistické ukazatele. # Dalším nástrojem využívající lemmatizaci je latentní sémantická analýza (LSA). „Latentní sémantická analýza je technika, která zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí, přičemž slova, která jsou sémanticky podobná (měřeno mírou souvýskytů v dokumentech) jsou zobrazována do stejných dimenzí a slova sémanticky odlišná do různých dimenzí. “ LSA pro každé slovo vytváří další dimenzi, dokumenty se tak mohou nacházet až v několika statisících dimenzí. Lemmatizace je zde vhodná z toho důvodu, aby počet slov zredukovala na minimum a to pomocí převedení všech slov na základní tvar. Tím se nevytváří různé dimenze pro stejná slova v jiném slovním tvaru. „Díky tomu mohou mít velkou sémantickou podobnost i dokumenty (případně dotaz a dokument), které spolu nesdílejí žádná slova. “.

Úskalí lemmatizátoru

Některá slova jsou mnohoznačná (v češtině např. ženu, stát, tancích) a pokud lemmatizátor neposoudí nebo nemůže posoudit kontext, není schopen zvolit zamýšlený význam. +more Např. „Jeden z nejhodnotnějších zdrojů o maďarských tancích“ zpracuje takto: „Jeden/jíst z hodnotný zdroj o maďarský tank/tanec“.

Obtížným specifikem jsou taktéž víceslovná spojení, tj. vytváření lemmat i tam, kde to není možné, např. +more zdvořilá prosba Dovolíte. se nenachází v žádném z registrovaných významů slova dovolit, dále se může jednat o frazémy, např. nechat na holičkách, popř. se jedná o idiomy např. z někoho si vystřelit.

Dostupné lemmatizátory pro češtinu

Neúplný výčet podle bakalářské práce Lemmatizace češtiny:

České lemmatizátory

Ajka * Majka * Morče * MorphoDiTa * Czech HMM tagger * Czech "Free" Morphology * Morfo

Zahraniční lemmatizátory

Cistern (Lemming + Marmot) * LemmaGen

Ostatní nástroje

QUITA (Quantitative Indicator Text Analyzer) * RDRPOSTagger (Ripple Down Rules Part-Of-Speech Tagger) - Tagger založený na Ripple Down Rules

Poznámky

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top