Orange (software)
Author
Albert FloresOrange je vizuální programovací jazyk pro strojové učení, dolování dat (data mining) a interaktivní analýzu.
Software byl představen ke konci 90. let 20. +more století a je vytvářen na Univerzitě v Lublani na fakultě počítačové a informační vědy v laboratoři bioinformatiky.
Popis
Software je vhodný jak pro pokročilé uživatele, aby byli schopni pomocí softwaru provést svou analýzu rychle, tak pro běžné uživatele, kteří mohou mít přístup k interaktivnímu, vizuálnímu a jednoduchému způsobu provedení své analýzy dat. Díky intuitivnímu rozhraní a nekomerční platformě je vhodný pro široké využití při dolování dat a jejich analýzy.
Podstatou softwaru je vizuální programování. To znamená, že každý analytický postup je obsažen ve widgetu. +more Widgety jsou umístěny na plátně a propojeny s analytickými pracovními postupy, které běží zleva doprava. Widgety představují samotné programové kódy. Widgety poskytují základní funkce jako je čtení dat, zobrazování tabulek, srovnání algoritmů nebo vizualizace datových položek. Uživatel tak díky nim vidí výsledek vizuálně.
Jako vstupní datový formát používá Orange především soubory s koncovkou tab Orange ale dokáže otevřít i další datové sady s koncovkami txt, csv, basket nebo arff. Vstupní data lze načíst i z Excelu (. +morexlsx) nebo z URL adresy.
Postupy řešení úlohy se ukládají do souboru, která má koncovku ows.
Software
Software využívá programovací jazyky jako jsou Python, Cython, C++ a C. Grafické prostředí softwaru bylo vytvořeno pomocí programovacího jazyka Python a Qt3 knihoven.
Jádro softwaru obsahuje přes 200 C++ tříd, které pokrývají základní datové struktury a většinu algoritmů předzpracování a modelování. Část softwaru je napsaná v Pythonu a obsahuje procedury, které nejsou časově omezeny. +more Jádro obsahuje několik open source knihoven, k nim patří LIBSVM, LIBLINEAR, Earth nebo QHUll. Používány jsou také knihovny Pythonu, například NymPy pro lineární algebru, NetworkX pro práci s grafy nebo Matplotlib pro vizualizaci.
Operace
V softwaru je možné provádět různé operace, které jsou zobrazeny na levém panelu. Operace se dělí do 18 skupin, které jsou od sebe odlišeny barvami. +more Součástí skupiny jsou widgety, které jsou označeny stejnou barvou jako skupina, do které patří. Operace a widgety Operace jsou sdruženy do skupin jako jsou:.
* Data - složka, import CSV, datová tabulka, informace o datovém souboru apod.
* Přeměna - vybrat řádky, vybrat sloupce, spojit data, spojit sloupce, zřetězit, předpracovat apod. * Vizualizace - bodový diagram, časový diagram, síťový diagram, Vennův diagram apod. +more * Model - lineární regrese, logistická regrese, metoda podpůrných vektorů apod. * Hodnocení - předpověď, ROC křivka, kalibrační graf, výkonnostní křivka * Bez dozoru - korelace, K-means, Louvainova metoda, hierarchické klastrování apod. * Spektroskopie - vícerozměrné škálování, přetvořit mapu apod. * Dolování textu - import dokumentů, duplikace zjištění, Wikipedia, slovní obohacení apod. * Analýza přežití - Kaplan-Meier diagram, Coxova regrese, kohorta apod. * Bioinformatika - diferenciální genová exprese, shluková analýza, genová sada apod. * Jediná buňka - načíst data, filtr, propojit datové sady, skóre genů apod. * Obrazová analytika - nahrát obrázky, prohlédnout obrázky, uložit obrázky apod. * Sítě - analýza sítí, klastrování sítí, generátor sítí apod. * Geo - geokódování, geomapa, kartogram apod. * Vzdělávací - polynomická regrese, polynomická klasifikace, koláčový graf, gradientní sestup apod. * Časové řady - spojnicový graf, periodogram, korelogram, spiralogram, interpolace apod. * Spolupracovník - časté sady položek a asociační pravidla * Vysvětlení - vysvětlit model, význam funkce, vysvětlit predikci a vysvětlit predikce.
Zajímavosti
Orange využívá několik tisíc uživatelů týdně, a je tak jedním z největších open source prostředí pro vědu o datech řízených vizualizací.
Software je dostupný všem zadarmo a původně byl založen pro vzdělávací účely, i přesto je vhodným nástrojem pro praktické zpracování dat.
Orange funguje na operačním systému Windows, Mac OS a Linux a může být instalován z repozitáře Python Package Index.