Hierarchické shlukování
Technology
12 hours ago
8
4
2
Author
Albert FloresHierarchické shlukování je technika analýzy dat, která se používá především v oblasti strojového učení a vyhledávání informací. Jedná se o metodu, která rozděluje data do hierarchické struktury, kdy jednotlivé shluky jsou uspořádány do stromového diagramu. Hierarchické shlukování se používá k objevování vzorců a podobností mezi různými objekty či skupinami objektů. Tato technika je velmi užitečná při analýze textových dat, kdy se hledají podobnosti mezi dokumenty. Hierarchické shlukování se dělí na aglomerativní (shlukování zdola nahoru) a divisive (shlukování shora dolů) metody. Jedním z nejznámějších algoritmů pro hierarchické shlukování je algoritmus Ward, který minimalizuje rozptyl uvnitř každého shluku. Dalšími algoritmy jsou Například Single Linkage, Complete Linkage a Average Linkage. Hierarchické shlukování je využíváno v mnoha oblastech, jako je genetika, sociologie, marketing, biologie apod. Pomocí této techniky je možné nalézt skryté vztahy a struktury v datech, což umožňuje lepší porozumění a interpretaci dat.
Hierarchické shlukování je soubor příbuzných metod shlukové analýzy, které shlukování provádějí postupným spojováním menších shluků (aglomerativní metody) anebo naopak postupným dělením velkých shluků na menší (divisivní metody) podle předepsaných kritérií. Jednotlivé metody jsou definovány především metrikou (vzdáleností mezi shluky, mezi body a mezi shluky a body) používanou při hledání optimálního spojení nebo dělení.
Protože při hledání jednotlivého spojení nebo dělení se obvykle hledá optimum bez ohledu na další postup, patří většina používaných metod mezi hladové algoritmy a nemůže zaručit, že nalezne optimální řešení. Název hierarchické pochází z toho, že v průběhu algoritmu se vytvoří přirozená hierarchie shluků vzniklá jejich postupným dělením či spojováním. +more Nevýhodou hierarchického shlukování je, že příslušné metody obvykle špatně škálují vzhledem k počtu shlukovaných bodů n: časová náročnost standardního algoritmu je \mathcal{O}(n^3) a paměťová náročnost \mathcal{O}(n^2), obojí však může být v určitých případech zlepšeno.