Stematizace

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá stemmer. V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar.

Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. +more Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.

Podobnou operaci lemmatizace provádí lemmatizátor - tato operace vrací základní tvar slova (tj. lemma) místo kmene.

Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.

Problémy

Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.

Pokud při ohýbání nastává změna v kořeni (např. dítě/dětí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.

Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen.

Kategorie:Vyhledávání informací Kategorie:Zpracování přirozeného jazyka

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top