Automatická indexace

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Automatická indexace je automatický proces redukce textu pomocí počítačového programu za účelem získání relevantních pojmů, které výstižně charakterizují jeho obsah. Vybrané pojmy se mohou nechat v přirozeném jazyce, nebo jsou přiřazeny k heslům řízeného slovníku selekčních jazyků. Takto vybrané výsledky se částečně překrývají s výstupy, které vytvořili lidští indexátoři, avšak určitá část výsledků, které nejsou shodné, je podrobena dalšímu výzkumu. Ten by se měl pokusit najít odpovědět, jak tyto postupy sjednotit a pomoci zpřesnit automatickou indexaci, tak jak to umí lidští indexátoři.

Nicméně nejedná se pouze o jedinou technologii. Je zde využita řada dalších metod. +more Jde o kombinaci indexovacích algoritmů, statistických měření, jazykových analýz atd. Algoritmy mohou být nastaveny i tak, že neprozkoumávají pouze plný text, ale využívají i struktury daného dokumentu, jako jsou nadpisy, záhlaví a odstavce.

Automatická indexace potřebuje vysoký výpočetní výkon

...

Typy automatické indexace

Nejčastěji se dělí na dva typy: slovní indexaci (automatická extrakce) a pojmová indexaci (automatické přiřazování). Hlavní rozdíl těchto typů automatické indexace je v jednoduchosti jejich aplikace. +more Slovní indexace vybírá přímo z plného textu dokumentu takové termíny, které vyjadřují jeho obsah. Kdežto u pojmové indexace, kde se může částečně využít metody automatické extrakce, jde o simulování intelektuální indexace tím způsobem, že jsou porovnávány termíny z řízeného slovníku se slovy z plného textu.

Slovní indexace - postup

Lexikální analýza

Lexikální analýza identifikuje jednotlivá slova a sousloví v plném textu dokumentu. Největší problém je právě v rozpoznání zkratek nebo sousloví, které jsou na identifikaci značně složitější. +more Počítačový program na základě zvolených algoritmů identifikuje jednotlivá slova pomocí mezer a spojovníků, přičemž může ještě normalizovat formy sousloví, a to podle syntaktických, lexikálních a morfologických variant.

Odstranění „stop“ slov

Následuje odstranění tzv. „stop“ slov. +more „Stop“ slova nemají žádnou informační hodnotu. Jde především o spojky, přeložky, částice nebo slovesa např. být. Tento proces se opírá o frekvenční analýzu výskytu slov amerického lingvisty a psychologa G. K. Zipfa. Zipfův zákon byl později aplikován při řešení úkolu automatického indexování. Na základě zákona se konstruovaly slovníky rešeršních slov a nevýznamových (stop) slov, které jsou základem pro automatické vyhledávání. Právě porovnáním textu a tohoto slovníku se „stop“ slova vyřazují.

Lemmatizace

Další krok je tzv. lemmatizace, která se snaží slova a sousloví vyskytující se v textu v různých tvarech daných gramatickými kategoriemi (číslo, pád atd. +more) převést na jejich základní gramatický tvar, tj. kmen nebo kořen označované termínem lemma. Tento postup provádí program tzv. lemmatizátor.

S lemmatizací souvisí pojem stemming. U stemmingu je rozdíl v tom, že automaticky zkrácená slova na slovní kořeny se používají jak při indexování dokumentů, tak při vyhodnocování dotazu uživatele např. +more ve vyhledávači. Jelikož jde o automatickou funkci, nastává zde problém, který může negativně ovlivnit výsledky vyhledávání, neboť rozšiřuje množinu vyhledaných slov o nežádoucí dokumenty.

Srovnání slov

Zbylá slova, spíše jejich kořeny, jsou porovnány s termíny v řízených slovnících, deskriptorech, tezaurech nebo předmětových heslářích atp.

Vážení

Každé slovo, které se dostalo až sem, má pro obsah textu různou důležitost, a právě vážení určuje selektivní sílu indexačního termínu daného slova. Termíny se váží podle těchto základních parametrů: pro váhu samotného termínu může být důležitá vlastní charakteristika, např. +more jeho slovní druh. Z hlediska významu jsou důležitější substantiva a adjektiva před ostatními slovními druhy. U ostatních slovních druhů proto platí, že buď získávají menší váhu, anebo jsou zařazeny do negativního slovníku. Roli ve váze termínu může hrát také délka textu nebo počet různých termínů v textu. Pro vážení termínu je také podstatný vztah termínu a textu (ovlivněný faktory kontextu termínu), frekvence termínu v textu (vychází se z předpokladu, že častěji používaný termín je relevantnější než ostatní), nebo umístění termínu ve specifické části textu (jako je např. název, abstrakt, nadpis kapitoly atp. ). Další parametr určuje vztah termínu a všech dokumentů v databázi, kdy se určuje např. frekvence výskytu termínu v databázi.

Pojmová indexace - postup

Během pojmové indexace se nejprve v plném textu identifikují termíny, které se posléze porovnávají se strukturovaným řízeným slovníkem (např. ve formě tezauru), znalostní bází, nebo s hesláři. +more Důležitou roli při porovnání hraje profil pojmu ve slovnících. Profil pojmu je tvořen základními charakteristikami, které určují daný pojem nebo se k němu přiřazují, jelikož mají vztah k jeho různým atributům. Na jejich základě se z nich vyberou příslušné relevantní indexační termíny, které odpovídají správnému profilu pojmu a které se shodují s termíny vybranými z plného textu dokumentu.

I v pojmové indexaci se přes zdánlivě jednoduchý postup obsahuje řadu problémů, které jsou řešeny většinou na základě pravděpodobnostních modelu. Jedná se především o termíny, které se v textu přímo neobjevují (odkaz pomocí ukazovacího zájmena - to nedává smysl, kam ukazuje zájmeno. +more Mimo text. ) nebo které jsou vyjádřeny složitou kombinací termínu případně definicí. Problém může nastat také u profilu pojmu, ke kterému výraz z dokumentu není přiřazen kvůli nedostačujícímu důvodu.

Problémy

Jakýkoli text je velmi složitou soustavou znaků a vzájemných vazeb, které se vyvíjely dlouhá staletí, a tak není divu, že přes sebedokonalejší algoritmy a vzorce počítačových programů se ještě nepodařilo dosáhnout takových výsledků jako u lidského mozku. Automatická indexace proto řeší několik závažných problémů, mezi které patří sousloví, homonyma, synonyma, jiný význam slov, citové zabarvení, proměnlivost významu slova v čase, nadřazenost a podřazenost termínů, složité vazby mezi termíny, termín vystihující obsah, který není v textu obsažen, nebo termín, který slovník vůbec neobsahuje.

Využití automatické indexace

Při využití automatické indexace musíme mít na paměti především to, že kvalitní zpracování obsahu textu umožňuje kvalitní vyhledávání. Asi největší a nejrozšířenější vliv tohoto postupu je u vyhledávače společnosti Google, kde jde především o oblast relevantnosti odpovědí. +more Existuje řada projektů a systémů, které automatickou indexaci testují nebo testovaly, např. zahraniční Media On Line Project a NASA MAI Tool, české Automatická indexace sněmovních tisků v Knihovně Poslanecké sněmovny ČR, SEMAN (SÉMantický Analyzátor; automatická indexace na základě sémantické analýzy jazyka), MOZAIKA (na Morfologickém Odvozování Založené Automatické Indexování Koherentními Agregáty; úspěšně testována v několika oborech) nebo Systém LEGSYS (znalostní databáze právních textů).

V současnosti je asi nejaktivnější v projektech týkající se automatické indexace Národní technická knihovna. Knihovna využívá metodu automatické indexace pro svůj Polytematický strukturovaný heslář PSH a také při zpracování šedé literatury v digitálním repozitáři Národní úložiště šedé literatury. +more Od roku 2012 pak byla zpřístupněna beta verze aplikace Maui Indexer pro automatickou indexaci dokumentů hesly PSH, kterou používá Národní technická knihovna k indexaci dokumentů. Tato aplikace je dostupná na stránkách Automatická indexace dokumentů hesly PSH. Na stránce je indexační pole, do kterého uživatel vloží část vybraného textu, nebo okno pro vložení dokumentu, který chce uživatel indexovat. Po několika sekundách se objeví výsledek ve formě přiřazených hesel PSH, která by měla nejlépe vystihovat obsah zvoleného textu.

Trendy

Vývoji automatické indexace ovlivňuje řada různých oborů (matematika, lingvistika, psychologie atd. ) a jejich objevů. +more Trendy směřují k tvorbě zpracování a vyhledávání na bázi umělé inteligence, která bude pracovat přímo s plnými texty. Takovéto systémy budou založeny přímo na zpracování plného textu dokumentů (text-based systems) oproti dnešní praxi, kdy jsou založené na externí bázi pojmů či znalostí (knowledge-based systems).

Reference

Literatura

BOOKSTEIN, Abraham a Don R. SWANSON. Probabilistic Models for Automatic Indexing. Journal of the American Society for Information Science [url=://search.ebscohost.com.

* BROUGHTON, Vanda. The need for a faceted methods of information retrieval. Aslib Proceedings [online]url=://dx.doi.org./10.1108/00012530610648671.

* HUMPHREY, Susanne M. Automatic indexing of documents from journal descriptors: A preliminary investigation. +more Journal of the American Society for Information Science [online]url=://search. ebscohost. com.

* HWANG, San-Yih, Wan-Shiou YANG a Kang-Di TING. Automatic index construction for multimedia digital libraries. +more Information Processing & Management [online]url=://dx. doi. org. /10. 1016/j. ipm. 2009. 10. 006.

* International Society for Knowledge Organization [online]url=://www.iskouk.org.

* KOVÁŘ, Blahoslav. Věcné pořádání informací a selekční jazyky. 2. vyd. Praha: UVTEI-Institut pro mimoškolní vzdělávání, 1984. 251 s. Učební texty / UVTEI; 22.

* KOVÁŘ, Blahoslav. Věcné pořádání informací a selekční jazyky. +more Díl 2, Předmětové pořádání; Mezinárodní spolupráce; Automatické indexování. 1. vyd. Praha: ÚVTEI, 1982. 138 s. Učební texty / UVTEI; 17.

* KUCIANOVÁ, Anna. Informačná analýza - klasifikácia a indexovanie 1.: sylaby [online]url=://www.snk.sk/?Pr.

* LANCASTER, F. Wilfrid. Indexing and abstracting in theory and practice. 2nd ed. London: Library Association Publishing, 1998. .

* MEDELYAN, Olena a Ian H. WITTEN. +more Domain-independent automatic keyphrase indexing with small training sets. Journal of the American Society for Information Science & Technology [online]url=://dx. doi. org. /10. 1002/asi. 20790 .

* MOENS, Marie-Francine. Automatic indexing and abstracting of document texts. Boston: Kluwer Academic Publishers, 2000. .

* OBASEKI, Tony I. Automated Indexing: The Key to Information Retrieval in the 21st Century. Library Philosophy & Practice [online]url=://search.ebscohost.com.

* PETERS, Isabella. Folksonomies: indexing and retrieval in Web 2.0. Berlin: De Gruyter/Saur, c2009. 443 s. Knowledge and Information. .

* RAJASHEKAR, T. B. +more a W. Bruce CROFT. Combining Automatic and Manual Index Representations in Probabilistic Retrieval. Journal of the American Society for Information Science. 1995, Vol. 46, No. 4, s. 272-283. ISSN 0002-8231.

* SALTON, G. a C. S. YANG. Specification of term values in automatic indexing. Journal of documentation. 1973, Vol. 29, No. 4, s. 351-372 [cit. 2013-05-20]url=://www.ikaros.cz/node/3986.

* SOUZA, Renato Rocha a K. S. RAGHAVAN. A Methodology for Noun Phrase-Based Automatic Indexing.Knowledge Organization [online]url=://search.ebscohost.com.

* SPARCK-JONES, K. Progess in documentation - automatic indexing. +more Journal of documentation. 1974, Vol. 30, No. 4, s. 393-432 [cit. 2013-05-20]online]. 1974, Vol. 25, No. 5, s. 312-318 [cit. 2013-05-20]. ISSN 0002-8231. Dostupný komerčně v databázi LISTA:[/url]. 2006, Vol. 58, No. 1/2, s. 49-72 [cit. 2013-05-20]. ISSN 0001-253X. Dostupné z (DOI):[/url]. 1999, Vol. 50, Isuue 8, p. 661-674 [cit. 2013-05-20]. ISSN 0002-8231. Dostupné komerčně v databázi LISTA:[/url]. 2010, Vol. 46, No. 3, s. 295-307 [cit. 2013-05-20]. ISSN 0306-4573. Dostupné z (DOI):[/url]. [London: University College London], 2007- [cit. 2013-05-20]. Dostupné z:[/url]. Martin: Slovenská národná knižnica, 2007- [cit. 2013-05-20]. Dostupné z:[/url]. 2008, Vol. 59, No. 7, s. 1026-1040 [cit. 2013-05-20]. ISSN 1532-2882. Dostupné z (DOI):[/url]. 2010, Vol. 12, Issue 2, p. 1-4 [cit. 2013-05-20]. ISSN 1522-0222. Dostupný komerčně v databázi LISTA:[/url]. ISSN 0022-0418.

* SGALL, Petr. Využitie lingvistických metód vo VTEI. Bratislava: Slovenská technická knižnica, 1984. 115 s.

* SCHWARZ, Josef. Praktické aspekty hodnocení kvality a konzistence indexace. +more Ikaros [online]. 2001, roč. 5, č. 2 [cit. 2013-05-20]. ISSN 1212-5075. Dostupný z:[/url]. 2006, Vol. 33, No. 1, s. 45-56 [cit. 2013-05-20]. ISSN 0943-7444. Dostupný komerčně v databázi LISTA:[/url]. ISSN 0022-0418.

* STROSSA, Petr. Zpracování informačních fondů. +more Seš. č. 2, Algoritmizace a automatizace zpracování textových informací. 2. , přeprac. a rozš. vyd. Praha: Vysoká škola ekonomická, Fakulta informatiky a statistiky, 2000. 175 s. .

* WARD, Martin L. The future of the human indexer. Journal of librarianship and information science. 1996, Vol. 28, No. 4, s. 217-225. Lit. ISSN 0961-0006.

Externí odkazy

[url=http://invenio.ntkcz.cz/indexer/]Vyzkoušejte si automatickou indexaci[/url]

Kategorie:Zpracování přirozeného jazyka Kategorie:Věcný popis

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top