Fair data

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

FAIR data [fér data] jsou metodickým souborem pokynů ve světě vědy a výzkumu pro publikování výzkumných dat.

Fair/Fér metody jsou základními principy, které fungují jako směrnice pro určení publikovaných vědeckých dat v kontextu jejich digitálního zpracovávání a užívání jak uživateli (lidmi) tak zpracovateli (stroje, počítače). Data a metadata, využívaná na základě FAIR principů, by dle měla být vyhledatelná (findable), přístupná (accessible), čitelná a strojově zpracovatelná (interoperable) a v poslední řadě by data a metadata měla být použitelná, případně užitá znovu bez změny své povahy (reusable). +more Tyto základní body FAIR principů při práci s metadaty ve vědecké publikování jsou dále rozděleny na konkrétnější kritéria, která by měla být dodržována především v databázových systémech a datových repozitářích, které tyto data zpřístupňují. Uplatnění těchto zásad je klíčovým bodem pro snazší sdílení dat, využívání informací a služeb pro vědeckou i širší odbornou veřejnost a zároveň FAIR zpracovaná data zvyšují kvalitu digitálních zdrojů v kontextu tzv. otevřené vědy (open science) a volného přístupu ke zdrojům (open access).

Historie

Zkratka a principy byly definovány roku 2016 v časopise Scientific Data konsorciem vědců a organizací . FAIR data a principy vycházejí z principů strojové zpracovatelnosti dat publikovaných z vědecké činnosti společnosti Concept Web Alliance a sdružení FORCE11. +more Samotná vize vyhledatelnosti, přístupnosti, použitelnosti a citovatelnosti vědeckých dat byla poprvé představena na konferenci v Leidenu v roce 2014. Zároveň se stanovením samotných FAIR-principů byla založena i skupina občanského sdružení FORCE11 - pojmenované také FAIR. V roce 2017 byl spuštěn projekt EOSC a byla založena iniciativa Global Open FAIR - ve stejném roce česká skupina ELIXIR a nizozemský institut DTL vytvořili Data Stewardship Wizard (program, který umožnil plánovat správu dat pro výzkum). V roce 2020 měl být v rámci projektu European Open Science Cloud sjednocen přístup k datovým výstupům v rámci realizace výzkumých projektů v Evropě.

FAIR principy

Podle FAIR principů by digitální data a jejich metadata měla být dohledatelná (findable), přístupná (accessible), čitelná a strojově zpracovatelná (interoperable) a znovupoužitelná bez změny své povahy (reusable). Tyto FAIR principy jsou dále rozděleny na konkrétnější kritéria, tzv. +more bodů, které by měly být dodržovány především v databázových systémech a datových repozitářích, z důvodu zlepšení přístupu k těmto datům.

Pro snazší sdílení dat a využívání informací v nich obsažených, jsou tyto zásady klíčové, jelikož přispívají ke zvýšení kvality digitálních zdrojů.

Findable - dohledatelnost

F1. (meta)datům je přiřazen jedinečný a perzistentní identifikátor (např. +more DOI)
F2. data jsou popsána dostatečnými metadaty
F3. (meta)data jsou registrována nebo indexována ve prohledávatelných zdrojích  
F4. metadata specifikují identifikátor
.

Accesible - přístupnost

A1. (meta)data lze získat pomocí jejich identifikátorů při využití standardních komunikačních protokolů
A1. +more1protokol je otevřený, zdarma k dispozici a univerzálně použitelný
A1. 2protokol umožňuje v případě potřeby autentizaci a autorizaci
A2. metadata jsou dostupná i v případě, že data samotná již nejsou k dispozici
.

Interoperable - interoperabilita

I1. (meta)data používají pro reprezentaci znalostí formální, dostupný, sdílený a široce aplikovatelný jazyk
I2. +more(meta)data používají slovníky, které se řídí zásadami FAIR
I3. (meta)data obsahují reference na další (meta)data
.

Reusable - znovuvyužitelnost

R1. meta(data) mají množství přesných a relevantních atributů
R1. +more1(meta)data jsou zveřejněna s jasnou a dostupnou licencí
R1. 2(meta)data jsou spojena se svým původem
R1. 3(meta)data splňují standardy vědecké komunity pro daný obor
.

Princip F - findable - dohledatelnost

První bod principu - F. 1 - data či metadata musí být dohledatelná. +more K tomu slouží trvalý odkaz, ang. Persistent identifier (dále jen PI). Tento termín je nejčastěji spojen s daty přístupnými přes síťové rozhraní, kde není takový identifikátor jen trvalý, ale taktéž použitelný. V tomto případě lze jako příklad PI uvést URL. Mezi globální PI patří třeba identifikátor digitálního objektu (Digital Object Identifier - DOI).

Druhým bodem je princip označený jako „F. 2“. +more Veškerá data musí být dostatečně popsána svými metadaty. Tato metadata mohou sloužit k následnému snazšímu vyhledávání a filtrování v datech. Metadata bychom mohli definovat jako „data o datech“, která se v digitálním prostředí využívají ve strojovém (počítačovém) zpracování při třídění a vyhledávání.

Třetí bod „Findability“ - označen jako „F-3“ reprezentuje nalezitelnost dokumentu/datových souborů a určení dostupnosti a existence těchto souborů v databázi nebo úložišti. Podobně je definován i princip „F-4“, který udává, že data by měla mít svůj specifický datový identifikátor.

Princip A - accessible - přístupnost

Princip přístupnosti dat (nebo jejich získání nebo dosažení přístupnosti k nim) je základním principem, při jehož použití by měly být poskytnuty podmínky k tomu, aby data byla přístupná pro toho, kdo je vyhledává. Ve výsledku by přístupnost dat dle Principu FAIR měla zahrnovat přístupnost koncového uživatele ke zdroji nebo ke stažení datových souborů . +more Jedná se tedy o zohlednění požadavku, kdy data nemusejí být nutně přístupná volně, ale stačí, když je zde poskytnuta možnost jejich zpřístupnění (například při přihlášení do databáze). K tomuto se vztahuje první bod „A-1“, kdy přes TCP (transfer Control Protocol) webový prohlížeč umožní uživateli přístup k části uloženého datového souboru (například dle metadat k abstraktu dokumentu nebo k jeho citaci), ovšem neumožní nahlédnout do jeho fulltextu nebo jeho stažení. Takový vyhledávací systém na základě protokolu je tak volný (free and universaly immplementable), ale nepřístupný každému koncovému uživateli. Otevřený přístup k takovým datovým úložištím je poté dle bodu „A-2“ podmíněna trvanlivostí uložených metadat - tedy i přesto, že samotné zdrojové datové soubory již nejsou přístupné nebo nejsou v úložišti k dispozici, metadata těchto souborů by měla být zachována (při vyhledávání jsou přístupná data o existenci dokumentu, ale k nahlédnutí je například pouze abstrakt nebo metadatový záznam o souboru).

Princip I - interoperable - interoperabilita

Princip „I“ (čitelnost, reprezentace) je jeden z FAIR principů při publikování dat, který zaručuje, že data v repozitáři, v datovém úložišti nebo databázi mohou být snadno strojově čitelná a zpracovatelná, tedy, že každý počítačový systém zná alespoň formáty výměny dat druhého systému. Ve výsledku zpracované datové soubory by měly být přenositelné z jednoho systému do druhého za pomocí výměnných formátů dat, datových modelů (jako je například Dublin Core), řízených slovníků a tezaurů . +more K těmto principům se vztahují body „I-1“ (metadata a data využívají slovníky, kterými se FAIR principy řídí) až „I-3“ (metadata a data odkazují na související data), která pro FAIR data stanovují, jaký výměnný formát bude použit (tedy zda se jedná o stejné výměnné formáty) a zda tyto datové soubory obsahují řízené slovníky nebo zda jsou na metadata vázána jiná data.

Princip R - reusable - znovuvyužitelnost

Princip „R-1“ ((Meta)data jsou bohatě popsána s množstvím přesných a relevantních atributů) stanovuje úroveň, na které jsou data a medata znovupoužitelná. Znovupoužitelnost (popřípadě znovuvyužitelnost) dat lze posoudit i s přihlédnutím k metadatům (popisná metadata, která by měla být co nejvíc vyčerpávající, plurální). +more  Mezi taková metadata patří uvedení zdrojů, ze kterých prezentovaná data pocházejí a jakou mají povahu, jak a kým byla zpracována a zveřejněna.  Uvedení zdroje (tedy původce dat) má povahu licence, kam patří například licence Creativ Commnons. Podle dalšího bodu „R-1. 2“ by publikovaná data a metadata měla být svázána se svým původcem a dle bodu „R-1. 3“ byla měla FAIR data respektovat komunitní standardy (standardizovaná data, formátované soubory, slovníky, postupy pro sdílení dat a jejich uchovávání.

Literatura

IVÁNOVÁ, I. , N. +more BROWN, R. FRASER, N. TENGKU a E. RUBINOV. FAIR AND STANDARD ACCESS TO SPATIAL DATA AS THE MEANS FOR ACHIEVING SUSTAINABLE DEVELOPMENT GOALS. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019, XLII-4/W20, 33-39. ISSN 2194-9034. Dostupné z: doi:10. 5194/isprs-archives-XLII-4-W20-33-2019.

HANK, Carolyn a Bradley Wade BISHOP. Measuring FAIR Principles to Inform Fitness for Use. +more International Journal of Digital Curation. 2018, 13(1), 35-46. ISSN 1746-8256. Dostupné z: doi:10. 2218/ijdc. v13i1. 630.

GO FAIR [online]. Hamburg: Go fair [cit. 2021-12-13]. Dostupné z:

NOVOTNÝ, Vít. FAIR data: principy pro správu výzkumných dat. Masarykova univerzita, Fakulta informatiky. Brno, 2018. 4 strany. Dostupné také z:

Otevřená výzkumná data. Univerzita Karlova [online]. Praha: Centrum pro podporu open science, c 2022, 8. březen 2021 [cit. 2022-01-22]. Dostupné z:

WILKINSON, Mark D. , Michel DUMONTIER, IJsbrand Jan AALBERSBERG, et al. +more The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, 3(1). ISSN 2052-4463. Dostupné z: doi:10. 1038/sdata. 2016. 18.

Reference

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top