Webarchiv

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Webarchiv NK ČR je digitální archiv „českých“ webových zdrojů, které jsou zde shromažďovány za účelem jejich dlouhodobého uchování. Ochranu a uchování těchto dokumentů zajišťuje od roku 2000 Národní knihovna České republiky ve spolupráci s dalšími institucemi. Smyslem archivu je zachování kulturní, vědecké či dokumentační hodnoty současných webových stránek pro budoucí generace. Webarchiv je vedle Manuscriptoria a Krameria jeden z pilířů projektu Národní digitální knihovny.

Pro archivaci webu jsou využívány softwarové nástroje využívané institucemi v rámci konsorcia IIPC (International Internet Preservation Consortium). Pro účely stahování obsahu webu (neboli sklízení) se v rámci projektu Webarchiv používá software Heritrix. +more Stažené stránky jsou poté uloženy do digitálního repozitáře. Pro online zpřístupňování archivovaného obsahu je nasazen Wayback. Oba nástroje jsou open source software.

Archivace webu probíhá na základě kombinace dvou přístupů: výběrového a celoplošného.

Výběrová strategie

Výběrový přístup je založen na manuální selekci cílového zdroje k archivaci. Vybírány jsou pouze ty stránky, které splňují alespoň jednu z následujících podmínek: * místem vydání je Česká republika * stránky jsou v českém jazyce * autor stránek je české národnosti * obsah se týká České republiky nebo českého národa

Při výběru stránek k archivaci se používá několik užitečných pomůcek. Jednou z nich je oborové třídění dle metody Konspektu [https://www. +morenkp. cz/o-knihovne/odborne-cinnosti/zpracovani-fondu/roztridit/konspekt-1] , které obsahuje 26 různých kategorií od humanitních věd až po technické obory. Stránky se vybírají podle tematického zaměření spadajícího do konkrétní kategorie Konspektu.

Vedle oborového třídění se při výběru zdrojů přihlíží k výsledkům soutěží, anket a dalším ukazatelům, které zvýrazňují významnost obsahu vybraných stránek. Jedná se např. +more o ocenění v oblasti architektury, umění, sportu a filmu. Pokud je tedy subjekt za svou činnost oceněn, je pravděpodobné, že budou jeho stránky navrženy do výběrových sklizní.

Navržené zdroje poté podléhají internímu hodnocení. V případě jejich schválení k zařazení do výběrových sklizní je kontaktován vydavatel stránek s žádostí o udělení souhlasu s archivací a online zpřístupněním archivovaných stránek. +more Po udělení souhlasu jsou stránky pravidelně archivovány na základě stanovené frekvence sklízení. Ke stránkám je také vytvořen katalogizační záznam, který se stává součástí katalogu Národní knihovny a České národní bibliografie. Celková velikost výběrových sklizní se k 1. 8. 2011 blíží ke 14 TB.

Celoplošná strategie

Jedná se o povrchovou archivaci všech webových stránek ležících na doméně . cz. +more Celoplošná sklizeň je prováděna na základě aktualizovaného seznamu registrovaných českých domén, který každoročně poskytuje sdružení CZ. NIC. Sklizeň probíhá minimálně 1x do roka. Zároveň je testován nástroj (WebAnalyzer), který umožňuje na základě určitých charakteristik automatizovaně rozpoznat „české“ stránky ležící i mimo doménu . cz a přiřadit je k seznamu sklízených stránek. Celková velikost celoplošných sklizní je k 1. 8. 2001 cca 24,8 TB.

Přístup k archivovanému webu

Celoplošné sklizně jsou přístupné pouze přes vybrané počítačové stanice v budově Národní knihovny. Volně přístupné online jsou pouze stránky, ke kterým udělil vydavatel souhlas. +more Archivované stránky je možné prohlížet prostřednictvím rozhraní [url=https://webarchiv. cz/]]na webových stránkách projektu Webarchiv na základě zadání url adresy stránek. Další možností je využití tematického rozcestníku [https://web. archive. org/web/20170928005628/https://webarchiv. cz/index. php. lang=cs&action=catalog[/url], ve kterém jsou záznamy archivovaných stránek seřazeny podle oboru, kterého se týkají. U každého záznamu stránky je uvedena stručná anotace obsahu webové stránky, klíčová slova, původní url adresa a odkaz do archivu webu.

Co lze nalézt ve Webarchivu?

Stránky významných českých institucí (vysoké školy, orgány státní správy, neziskové organizace, vědecké ústavy), stránky českých měst a obcí, odborné elektronické časopisy, nezávislé zpravodajské portály, stránky oceněných českých umělců a sportovců, blogy a stránky českých politiků, oceněné osobní a tematicky zaměřené blogy a mnoho dalšího.

Veřejné navrhování stránek k archivaci

Na stránkách projektu je k dispozici webový formulář [url=https://web. archive. +moreorg/web/20170928005731/https://webarchiv. cz/index. php. lang=cs&action=add],]prostřednictvím kterého může kdokoliv podávat návrhy webových stránek na zařazení do českého archivu webu. Návrhy, které nesplňují kritéria výběru [https://web. archive. org/web/20110716204755/http://www. webarchiv. cz/kriteria[/url], nejsou do výběrových sklizní zařazeny.

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top