Velká data

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem, nestrukturovaností informací a variabilitou dat vhodným příkladem pro big data.

Velká data ( česky někdy veledata) jsou podle jedné z možných definic soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase. Často bývá v textech na dané téma používáno i v češtině přímo big data jako pojem označující technickou kategorii, tedy bez překladu.

Big data a datové sklady

Velké objemy dat jsou nyní (2013) obvykle ukládány v datových skladech. Do datových skladů jsou ukládány z různých zdrojů a existujících informačních systémů pomocí procedur ETL. +more Většinou jde již o data ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných cyklech a následně je nad nimi provedena analýza již připravenými algoritmy. Dalším běžným způsobem je provádění dalších analýz a výpočtů na vyžádání. Obvykle se v datových skladech pracuje s daty o objemu terabytů.

Na rozdíl od toho se v big datech hovoří o objemech dat v petabytech. Petabyte je 1 000 000 000 000 000 bytů, tedy 1015 bytů. +more Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.

Kategorie big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. +more V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data. Některé zdroje přidávají i čtvrté V pro veracity.

volume (objem) : Objem dat narůstá exponenciálně. velocity (rychlost) : Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. +more Vhodným příkladem může být zpracování dat produkovaných kamerou. variety (různorodost, variabilita) : Kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat. veracity (věrohodnost) : Nejistá věrohodnost dat v důsledku jejich inkonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.

Nástroje pro big data

Známým nástrojem pro zpracování big dat je Hadoop. Nejde ale o nástroj řešící problematiku big dat úplně. +more Jde jen o jeden z nástrojů pro big data a navíc jde o opensourceový software, což může být pro některé zákazníky problematické. Proto více IT firem, které dodávají nástroje a řešení pro big data používá sice Hadoop, ale jen jako základ pro některý z jimi dodávaných nástrojů pro zpracování big dat.

Odkazy

Reference

Literatura

Související články

Apache Hadoop * Datový sklad * Cloud computing

Externí odkazy

[url=http://www. apache. +moreorg]Apache Foundation Official website[/url] * [url=http://www. itglobal-services. de/files/100810_McK_Clouds_big_data_and%20smart%20assets. pdf]Clouds, big data, and smart assets: Ten tech-enabled business trends to watch[/url] * [url=https://web. archive. org/web/20180304054738/https://www. datawerks. com/big-data-solution/]Real Time Data Access and Total Data Integration[/url].

Kategorie:Počítačová terminologie

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top