Ústav Českého národního korpusu

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Ústav Českého národního korpusu Filozofické fakulty Univerzity Karlovy v Praze, zkr. ÚČNK, vytváří a spravuje Český národní korpus a vedle vědy a výzkumu se věnuje též výuce a podpoře uživatelů Českého národního korpusu a paralelních korpusů řady InterCorp.

Struktura

Ředitelem ústavu je Mgr. Michal Křen, Ph.D.

Ústav je rozčleněn na následující sekce: * Lingvistická (vedoucí doc. Mgr. +more Václav Cvrček, Ph. D. ) * Komputační (vedoucí Mgr. Pavel Vondřička, Ph. D. ) * Mluvené korpusy (vedoucí Mgr. David Lukeš) * Diachronní korpusy (vedoucí Mgr. Martin Stluka, Ph. D. ) * Lingvistická analýza a anotace (vedoucí Mgr. Tomáš Jelínek, Ph. D. ) * Paralelní korpusy (vedoucí Ing. Alexandr Rosen, PhD. ).

Činnost

Hlavním posláním ÚČNK je kontinuální rozvoj a budování jazykových korpusů různých typů. Představují reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka a jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpusy) a v překladovém srovnání s jinými jazyky (paralelní korpusy).

S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant SyD) a podpora uživatelů.

Řady korpusů

V současnosti projekt ČNK spravuje následující řady korpusů:

Korpusy psané současné češtiny o celkovém rozsahu 1300 milionů textových slov jsou referenční (tj. neměnné, lze na ně odkazovat a opakované dotazy dají tytéž výsledky) a reprezentativní (vyváženě pokrývají celou šíři žánrů, jež český čtenář recipuje skrze tištěné psané texty, a reprezentují tak úzus tištěné psané češtiny) * SYN2000 - 100 mil. +more slov, žánrově vyvážený korpus, převažují texty z let 1990-1999 * SYN2005 - 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 2000-2004 * SYN2006PUB - 300 mil. slov, korpus publicistických textů z let 1989-2004 * SYN2009PUB - 700 mil. slov, korpus publicistických textů z let 1995-2007 * SYN2010 - 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 2005-2009 * SYN2013PUB - 935 mil. slov, referenční korpus publicistických textů z let 2005-2009 * SYN2015 - 100 mil. slov, referenční reprezentativní korpus, převažují texty z let 2010-2014, s novou klasifikací textů * SYN2020 - 100 mil. slov, referenční reprezentativní korpus, převažují texty z let 2015-2019 * SYN (verze 8) - 4,5 mld. slov, verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty.

Korpusy mluvené češtiny (synchronní)

* Pražský mluvený korpus - 675 tis. slov, přepis nahrávek pražské mluvy z 90. +more let 20. století * Brněnský mluvený korpus - 490 tis. slov, přepis nahrávek brněnské mluvy z 90. let 20. století * ORAL2006 - 1 mil. slov, korpus neformální mluvené češtiny (pouze Čechy) * ORAL2008 - 1 mil. slov, sociolingvisticky vyvážený korpus neformální mluvené češtiny (pouze Čechy) * ORAL2013 - 2,8 mil. slov, reprezentativní korpus neformální mluvené češtiny (Čechy, Morava a Slezsko) * ORAL - 5 368 391 slov, celkový čas nahrávek 582 hodin, sjednocuje korpusy ORAL2006, ORAL2008, ORAL2013 a dosud nepublikované nahrávky ORAL-Z.

Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus ORAL2008, pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Rozhraní KonText zpřístupňuje i anonymizované zvukové nahrávky. +more * ORTOFON - verze 2, 2,1 mil. slov, referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (Čechy, Morava a Slezsko) Korpus ORTOFON zachycuje spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). * DIALEKT - 100 tis. slov, referenční nářeční korpus s dvouúrovňovou transkripcí Korpus DIALEKT prezentuje teritoriální dialekty zachycené na území celé České republiky. Starší časová vrstva korpusu obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny nářeční sondy pocházející z období od 90. let 20. století až do současnosti. Korpus doplňuje [url=https://wiki. korpus. cz/doku. php/cnk:dialekt:archivhlasek]Archiv diferenčních hlásek nářečí českého jazyka[/url] a webová aplikace [url=https://korpus. cz/mapka/]Mapka[/url] (interaktivní mapa České republiky s detailně vyznačenými hranicemi nářečních celků (základní členění na oblasti nebo podrobné na podskupiny, úseky, typy), popisy nářečích rysů hlavních nářečních oblastí a ukázkami ve formě nahrávek a jejich přepisů s rozbory).

* ORATOR - referenční korpus monologů s jednoúrovňovou transkripcí

Korpus diachronní (DIAKORP)

Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus referenční, průběžně rostoucí ve verzích. +more Ve verzi 6 obsahuje přes 3,4 mil. slov.

Korpusy paralelní (InterCorp)

InterCorp zahrnuje překladové ekvivalenty českých textů do 40 jazyků. Verze 13 z roku 2020 obsahuje 1 551,2 mil. slov.

Publikace

ÚČNK dlouhodobě spolupracuje s Nakladatelstvím Lidové noviny, kde mj. vydává řadu Studie z korpusové lingvistiky. +more Dále vyšlo: * Frekvenční slovník češtiny (NLN, 2004) * Frekvenční slovník mluvené češtiny (Karolinum, 2007) * A Frequency Dictionary of Czech: Core Vocabulary for Learners (Routledge, 2011) * Mluvnice současné češtiny (Karolinum, 2010).

Ke stažení jsou zpřístupněny abecední a retrográdní slovníky, založené na korpusech řady SYN.

Historie

Ústav Českého národního korpusu byl založen 9. +more září 1994. Pravidelnou činnost vyvíjí od 1. října 1996, kdy byl sestaven kolektiv stálých zaměstnanců. Roku 2000 byl zveřejněn první stomilionový žánrově vyvážený korpus, SYN2000.

Reference

Externí odkazy

[url=http://www. korpus. +morecz/]Oficiální internetový portál[/url] * [url=https://kontext. korpus. cz/first_form. corpname=omezeni/syn2010]Veřejný přístup ke korpusu SYN2010 (bez nutnosti registrace)[/url] * [url=http://syd. korpus. cz/]SyD - nástroj pro porovnávání variant v češtině na základě synchronních, diachronních a mluvených dat ČNK (bez nutnosti registrace)[/url] * [url=https://web. archive. org/web/20130728224138/http://www. korpus. cz/intercorp/]InterCorp - paralelní překladové korpusy více než dvaceti jazyků[/url] * [url=http://blog. aktualne. centrum. cz/blogy/vaclav-cvrcek. php]Blog korpusového lingvisty - V. Cvrček na Aktuálně[/url].

Kategorie:Lexikografie Kategorie:Čeština Kategorie:Filozofická fakulta Univerzity Karlovy

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top