Apache Hadoop

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Video o Hadoop(anglicky) Hadoop je framework obsahující sadu opensource softwarových komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat v řádech petabytů a exabytů.

Principy Hadoopu

Podstata spočívá v uložení dat na velkém množství samostatných počítačů. Může jít o běžný hardware a tak je uložení těchto dat levnější než ukládání na specializovaném hardwaru s vysokou dostupností. +more Pro uložení je potom použit distribuovaný souborový systém. Jeden takový systém nabízí přímo Hadoop. Je to systém HDFS, což je zkratka z anglického názvu Hadoop Distributed File System. Zpracování potom probíhá tak, že je úloha rozdělena a zpracovávána paralelně na více uzlech. Jde tedy vlastně o distribuovaný výpočet. Konečný výsledek je zjištěn výpočtem z dílčích výsledků. Jde o tak zvaný princip MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků. Samotný výpočet je tak posunut z velké části k datům, čímž je značně redukována potřeba přenosu velkých objemů dat po síti.

Vývoj Hadoopu a jeho derivátů

Hadoop je rozvíjen v rámci opensource softwaru. V jeho vývoji se angažuje organizace Apache Software Foundation.

Volné komponenty Hadoopu jsou dostupné na stránkách hadoop.apache.org. Na bázi Hadoopu jsou postavena mnohá komerčně dodávaná řešení pro big data.

Apache Hadoop

Aktuální verze Hadoopu v roce 2012 mohla pracovat na 4000 uzlech clusterů. Pro uzel se počítalo 16 (a více) jader a 10000 paralelních úkolů.

Vydání významných verzí

22. březen 2017: Release 2. +more8. Pro produkční nasazení je doporučeno počkat na verze 2. 8. 1/2. 8. 2 * 25. leden 2017: Release 3. 0-alpha2 * 8. říjen 2016: Release 2. 6. 5 * 25. srpen 2016: Release 2. 7. 3 * 21. duben 2015: Release 2. 7. 0 (nejde o stabilní verzi pro produkční nasazení) * 18. listopad 2014: Release 2. 6. 0 (nejde o stabilní verzi pro produkční nasazení) * 15. říjen 2013: Release 2. 2. 0 release s tzv. General availability obsahující významná rozšíření: ** YARN - systém řízení zdrojů pro Hadoop ** High Availability (Vysoká dostupnost) pro HDFS ** HDFS Federation ** HDFS Snapshots ** NFSv3 přístup k datům v HDFS ** Podporu pro provoz Hadoop na Microsoft Windows ** Binární kompatibilitu pro aplikace MapReduce postavené na hadoop-1. x.

Odkazy

Reference

Literatura

White, T.: Hadoop: The Definitive Guide, O'Reilly Media, Incorporated, 2009, * Lam, Ch.: Hadoop in Action, O'Reilly Media, 2010, 312 stran

Související články

Open source software * Apache Software Foundation

Externí odkazy

[url=http://www.apache.org]Apache Foundation Official website[/url] * [url=https://web.archive.org/web/20130908042433/http://streaming.linux-magazin.de/]Linux Magazine[/url]

Kategorie:Síťové systémy souborů Kategorie:Svobodný software Kategorie:Software pod licencí Apache

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top