Tezaurus

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Tezaurus (někdy také thesaurus, ve středověké latině „poklad“, z řeckého θησαυρός thesauros „pokladnice“) je v jazykovědě poměrně úplný slovník určitého jazyka nebo jen oborové terminologie, často s hierarchickým uspořádáním jednotlivých hesel od nejabstraktnějších pojmů po nejkonkrétnější; referenční příručka, která uživateli nabízí seznam synonym, někdy i antonym.

Český tezaurus

Poklad jazyka českého se snažil připravit Jan Amos Komenský, ale dlouho sbíraný materiál shořel při jeho pobytu v Lešně roku 1656.

První český plnohodnotný tezaurus češtiny byl Tezaurus jazyka českého (s podtitulem Slovník českých slov a frází souznačných, blízkých a příbuzných), který vydal Aleš Klégr roku 2007. Je založen na Rogetově tezauru a obsahuje kolem 150 000 lexikálních jednotek.

Předcházející, nedokončený, pokus byl Český slovník věcný a synonymický (3 díly z 1969-1977) který vedl Jiří Haller.

Klégrův i Hallerův tezaurus jsou postupně zveřejňovány online na [url=https://beta.najdislovo.cz/]najdislovo.cz[/url]

Další slovníky synonym v češtině jsou:

* Malý slovník českých synonym (1947), Jan Mašín, Josef Václav Bečka, nakladatelství Ing. Mikuta * Slovník synonym a frazeologismů (1977), Josef Václav Bečka, Vydavatelství Novinář * Slovník českých synonym (2001) Karel Pala, Jan Všianský, nakladatelství Lidové Noviny. +more Dostupné online jako [url=https://www. slovnik-synonym. cz/]ABZ slovník českých synonym[/url]. * Slovník českých synonym a antonym (2012), Lingea, dostupný také [url=https://www. nechybujte. cz/slovnik-ceskych-synonym]online[/url] a jako aplikace.

Tezaurus v kontextu indexování a vyhledávání

Řízený slovník deskriptorů, mezi nimiž jsou určeny vztahy nadřazenosti a podřazenosti, termíny synonymní a jiné související. V odborné literatuře popsán jako řízený a měnitelný slovník deskriptorového a selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami. +more Lidově řečeno: slovník, který umožňuje uživatelům nabízet shodný nebo podobný seznam slov, což zajišťuje shodné vyjádření problematiky překladu určitého tématu popsaného jazykem autora do jazyka systému. Vyjadřuje pojmy, které jsou v přirozeném jazyce těžko postižitelné a pomocí složených termínů a dalších nástrojů překonává problémy s jazykem umělým.

S jeho pomocí můžeme hledat nějaké informace, aniž bychom věděli, co je preferovaný termín. Umožňuje nám ulehčit práci při nepřeberném množství informací, podobně jako propojovací jazyk v informačních systémech. +more Využívá se především v knihovnách, informačních střediscích atd. (Český teologický tezaurus, Český pedagogický tezaurus, EUROVOC, AGROVOC).

Tezaurus GEMET

General European Multilingual Environmental Thesaurus, Obecný vícejazyčný tezaurus pro životní prostředí ([url=http://www. eionet. +moreeuropa. eu/gemet]Dostupný on-line[/url]). Obsahuje asi 5200 hesel, je tříděn hierarchicky a tematicky. Vrcholovou hierarchii tvoří 4 nadskupiny, následuje 32 skupin. Pod touto úrovní jsou hierarchie položek s proměnnou hloubkou. Dále jsou položky tříděny tematicky (český překlad témat v době tvorby tohoto hesla neexistoval). Témata jsou přiřazena atributem DOMAIN, obrácená relace je pomocí atributu DOMAIN_TYPICAL.

Tezaurus Eurovoc

Tezaurus Eurovoc je vícejazyčný polytematický tezaurus zaměřený na oblast práva a legislativy Evropské unie (EU). Tezaurus byl vytvořen ve spolupráci Evropského parlamentu, Komise EU a Úřadu pro úřední tisky ES za podpory DG XIII. +more Za správu Eurovocu na mezinárodní úrovni odpovídá Úřad pro úřední tisky ES.

Eurovoc lze využít zejména v knihovnách a informačních střediscích specializovaných na právo, legislativu a politiku. V rámci EU se Eurovoc používá v knihovně Evropského parlamentu, Úřadu pro úřední tisky ES a dalších informačních institucích EU. +more Kromě toho se používá v knihovnách a dokumentačních střediscích národních parlamentů a dalších státních i soukromých organizací v členských i nečlenských zemích EU. Eurovoc dále také nachází velké uplatnění v informačních centrech zaměřených na problematiku Evropské unie. V některých případech slouží Eurovoc také jako propojovací selekční jazyk v některých metainformačních systémech.

Eurovoc existuje v 17 oficiálních jazycích členských zemí Evropské unie (angličtina, dánština, francouzština, němčina, maďarština, řečtina, španělština, italština, nizozemština, portugalština, finština, švédština, slovinština, slovenština, litevština, lotyština a čeština). V dalších zemích se překlad Eurovocu do národního jazyka připravuje. +more Zástupci institucí, které spravují nebo překládají Eurovoc v jednotlivých zemích, se setkávají na pravidelných seminářích uživatelů Eurovocu.

Česká verze Tezauru Eurovoc První česká verze tezauru Eurovoc vznikla ve druhé polovině 90. let překladem 3. +more verze oficiálního Eurovocu. V současné době již existuje český překlad verze 4. 2. , který byl dokončen na podzim 2005. Česká verze je plně jazykově a strukturně kompatibilní s ostatními jazykovými verzemi. Překlad Eurovocu provedla Parlamentní knihovna ve spolupráci s dalšími institucemi.

Zájemci o českou verzi tezauru Eurovoc se mohou obrátit na Parlamentní knihovnu, která poskytne veškeré informace o Eurovocu a podmínkách jeho využívání.

Automatické indexování tezauru

Informační požadavek může být vyjádřen i jinými výrazy přirozeného jazyka, než jaké se vyskytují v daném textu. Problém tkví v tom, že významy různých výrazů přirozeného jazyka se mohou různými způsoby a v různé míře vzájemně překrývat. +more Tři typy těchto situací jsou:.

* Dva různé výrazy mají zcela stejný význam např. klisna = kobyla, kalkulace = výpočet. +more Tento jev se nazývá synonymie. * Dva různé výrazy jsou ve vztahu obecné:konkrétní (nadřazené:podřazené) např. zvíře >hospodářské zvíře>kůň>hřebec apod. * Dva různé výrazy mají pouze v širším smyslu něco společného, tedy jsou sémanticky asociované: např. kůň - dostih, výpočet - kalkulátor.

Daný problém představuje „koeficient selekční významnosti“. Řešením problémům při indexaci dokumentů a dotazů je tezaurus.

Tezaurus

Tezaurus je řízený slovník deskriptorového a selekčního jazyka, který je uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami. Je to slovník obsahující:

* Slovní zásobu, tj. slova a sousloví se specifickým významem určitého jazyka, případně i několika jazyků. +more * Odkazy na jiná hesla, která k němu mají sémantický vztah - např. synonyma, obecnější a konkrétnější výrazy a také výrazy ve vztazích např. celek - část, třída - prvek atd. * Další informace o heslech, např. historii jejich vzniku, příklady kontextu použití atd.

Tezaury určené pro indexování jsou zpravidla omezené na terminologii určité užší odborné oblasti. Ústředním pojmem tezauru určeného k indexování je deskriptor. +more Z každé skupiny synonymních termínů je vybrán jeden reprezentant nazývaný deskriptorem. Tento by měl být používán k samotnému popisu (deskripci) skutečného nebo požadovaného obsahu textu.

Deskriptor je univerzální vyhledávací prvek, který při vyhledávání má zastupovat i všechna svá synonyma. Všechna synonyma jsou pak nazývána nedeskriptory. +more Pouze mezi deskriptory se zachycují vztahy (vazby) - nadřazený, podřazený, asociovaný, ekvivalentní deskriptory v jiných jazycích (v případě vícejazyčného tezauru).

Odkazy

Reference

Literatura

F. Čermák, Jazyk a jazykověda. Praha: Karolinum 2009

Související články

Rogetův tezaurus * Polytematický strukturovaný heslář (PSH) - vykazuje řadu znaků typických pro tezaury

Externí odkazy

[url=http://eurovoc. europa. +moreeu/]Eurovoc, vyhledávání[/url] - Úřad pro publikace Evropské unie * * [url=https://beta. najdislovo. cz/]Online verze českých tezaurů od Klégra a Hallera[/url].

Kategorie:Slovníky Kategorie:Software Kategorie:Předmětové selekční jazyky

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top