Stematizace
Author
Albert FloresStematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá stemmer. V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar.
Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. +more Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.
Podobnou operaci lemmatizace provádí lemmatizátor - tato operace vrací základní tvar slova (tj. lemma) místo kmene.
Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.
Problémy
Při stematizaci hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.
Pokud při ohýbání nastává změna v kořeni (např. dítě/dětí), tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.
Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný kmen.
Kategorie:Vyhledávání informací Kategorie:Zpracování přirozeného jazyka