Aktivační funkce
Author
Albert FloresAktivační funkce je koncept z oblasti umělé inteligence a neuronových sítí, který se zabývá přenosovou funkcí jednotlivých neuronů. Neuronová síť je složena z mnoha jednotlivých neuronů, které mají za úkol zpracovávat a předávat signály mezi sebou. Aktivační funkce určuje, jakým způsobem je signál, který přijde do neuronu, převeden na výstupní hodnotu. Existuje několik různých typů aktivačních funkcí, které se používají v neuronových sítích, například sigmoidní funkce, hyperbolický tangens nebo ReLU. Každá z těchto funkcí má své vlastnosti a přednosti v různých aplikacích. Aktivační funkce je klíčovým prvkem neuronových sítí a správná volba funkce může mít velký vliv na kvalitu a výkon sítě.
V levém sloupci sigmoida spolu se svými limitními případy, v pravém sloupci možné transformace dat přiváděných na vstupní resp. výstupní neurony. Aktivační (přenosová) funkce neuronu v umělých neuronových sítích definuje výstup neuronu při zadání sady vstupů neuronu. Nelineární aktivační funkce umožňují neuronovým sítím řešit netriviální, nelineární problémy. Klasická nelineární funkce je sigmoida o parametrech strmosti (určující šířku pásma citlivosti neuronu na svůj aktivační potenciál) a prahové hodnoty (určující posunutí počátku funkce) spolu s jejími limitními tvary jako je linearita pro strmost blížící se nekonečnu a ostrá nelinearita pro strmost blížící se nule: :f(x)={1\over (1+e^{-p(x-\vartheta)} )} pak \lim_{p\rightarrow 0} f(x)={1\over 2} a pro x resp. pro x>0 dostaneme \lim_{p\rightarrow \infty} f(x)=0 resp. \lim_{p\rightarrow \infty} f(x)=1
Volbou aktivační funkce neuronů vstupní resp. výstupní vrstvy neuronové sítě můžeme určit způsob transformace dat na síť přiváděných:
* Sigmoida: f(x)=(1+e^{-p(x-\vartheta)})^{-1} - z ad 1) a ad 2) (viz níže) plyne p={\ln 0,95-\ln 0,05 \over 3\sigma}\cong {1 \over \sigma}
ad 1) z 0,95=(1+e^{-3p\sigma})^{-1} plyne e^{-3p\sigma}={0,05\over 0,95}
ad 2) z 0,05=(1+e^{3p\sigma})^{-1} plyne e^{3p\sigma}={0,95\over 0,05}
* Gaussova křivka: g(x)=e^{-p(x-\vartheta)^{2}} - z 0,05=e^{-p6\sigma^{2}} plyne p=-{\ln 0,05 \over 6\sigma^{2}}\cong {1 \over 2\sigma^{2}}
* Mexický klobouk: h(x)=-\sigma^{2}g(x) - uvedené transformaci resp. její nezáporné části odpovídají různá pásma citlivosti.
Parametry uvedených transformací mají následující význam:
ϑ - střední hodnota dat přiváděných na daný neuron z trénovací množiny
σ - směrodatná odchylka dat přiváděných na daný neuron z trénovací množiny
Kromě uvedených aktivačních funkcí se užívají ještě jejich různé modifikace: * Identita - linearita modifikovaná posunutím středu symetrie do počátku * Hyperbolická tangenta - rozšíření oboru hodnot sigmoidy na interval od -1 do +1 * ReLU - složení ostré linearity (vlevo od počátku) s identitou (vpravo od počátku) * Radiální báze - Gaussova křivka resp. Mexický klobouk