Modely kvantitativní závislosti aktivity na struktuře

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Modely kvantitativní závislosti aktivity na struktuře (QSAR) jsou regresní nebo klasifikační modely používané v chemických, biologických vědách a strojírenství. Stejně jako jiné regresní modely, QSAR modely jsou závislé na sadě prediktorových proměnných (X) závislých na odezvě proměnných (Y). Rozdíl oproti jiným metodám je v tom, že QSAR kategorizuje prediktorové proměnné na základě hodnoty odezvy.

Prediktor obsahuje fyzikálně-chemické vlastnosti nebo teoretických deskriptorů chemických látek. QSAR modely jednak shrnují předpokládané vztahy mezi chemickou strukturou a biologickou aktivitou v souboru dat. +more A také předpovídají aktivity nových chemických látek.

Souvisejícím termínem je Modely kvantitativní závislosti vlastností na struktuře (QSPR). V tomto případě je místo aktivity výpovědní proměnnou chemická vlastnost. +more V tomto odvětví jsou studovány různé vlastnosti a chování chemických látek. Například kvantitativní závislost struktury na reaktivitě (QSRRs), kvantitativní závislost struktury na toxicitě (QSTRs), kvantitativní závislost struktury na elektrochemických vlastnostech (QSERs), kvantitativní závislost struktury na odbouratelnosti (QSBRs).

Jako příklad, biologická aktivita může být vyjádřena kvantitativně jako koncentrace substance potřebné ke vzniku biologické odezvy. Když jsou fyzikálně-chemické vlastnosti a struktury vyjádřeny číselně je snazší hledat mezi nimi matematické vztahy, nebo kvantitativní závislosti struktury na aktivitě. +more Pokud je matematické vyjádření kvalitně validováno, dá se poté použit předpovědi chování nových chemických struktur.

* Aktivita = f(fyzikálně-chemické vlastnosti a/nebo strukturní vlastnosti) + chyba

Chyba je variabilní proměnná, která se může vyskytnout také u modelů, které jsou v pořádku.

Kroky QSAR

# Výběr souboru dat a extrakce strukturních/empirických deskriptorů. Zvoleným souborem dat pro QSAR může být například množina chemických struktur s přiřazenou biologickou aktivitou. +more Vzhledem k tomu, že se využívají modely strojového učení, je nutné volit takový soubor dat, který je dostatečně rozsáhlý pro dobrou statistiku modelu a také dostatečně malý s ohledem na výpočetní možnosti. Tato sada dat je pak rozdělena na trénovací sadu, která je využita pro trénování modelu, a validační sadu, kterou se potom ohodnotí výsledný model. Nejčastěji dochází k rozdělení sady dat v poměru 80 % trénovací sada a 20% validační sada. # Selekce proměnných (deskriptorů). Na empirické deskriptory lze nahlížet jako na numerickou reprezentaci molekul v datovém souboru. Tyto deskriptory mohou mít různou fyzikálně-chemickou a také biologickou povahu a mohou být rozděleny do několika skupin: fyzikálně-chemické, strukturní, topologické, elektrochemické, termodynamické nebo kvantově-chemické. Mezi nejpoužívanější deskriptory patří rozdělovací koeficient oktanol/voda (log P), který popisuje afinitu k vodnímu nebo lipidovému médiu. Disociační konstanta patří mezi elektrochemické deskriptory. Mezi strukturní deskriptory se řadí např. počet chirálních center, molekulová hmotnost nebo počet donorů a akceptorů vodíkových vazeb. Zvážíme-li dimenzionalitu, může se jednat o 0D (atomy, počet vazeb), 1D (počet částí molekul), 2D (strukturní, fyzikálně-chemické a topologické deskriptory), 3D (elektrochemické deskriptory, hustota molekuly), 4D deskriptory, které na různých úrovních popisují geometrii a topologii dané molekuly. Velmi rozšířené jsou tzv. 2D „fingerprints“, kdy jsou data o geometrickém uspořádání zaznamenaná ve formě bitového vektoru. Práce s nimi je snadná a poměrně rychlá. # Konstrukce modelu. V rámci modelu lze konstruovat úlohy klasifikační nebo regresní. Mezi běžně využívané algoritmy patří Support Vector Machine, náhodný les (Random Forest), Gradient Boosting Machines nebo neurální sítě (Neural Networks). Jak již bylo zmíněno, v datovém souboru by se mělo vyskytovat dostatečné množství dat na to, aby se daly rozdělit mezi trénovací sadu, testovací sadu a sadu pro validaci modelu (alespoň 15 - 20%). # Validace a vyhodnocení. Nejčastějšími chybami modelů bývá nahodnocení (overfitting) a podhodnocení (underfitting). Z tohoto důvodu by se měla spolehlivost modelu vždy otestovat. Zlatým standardem je vnitřní tzv. (n-násobná) křížová validace, kdy dojde k rozdělení dat na n částí a mezitím, co je (n-1) použito jako trénovací sada, je n-tá testovací. Dle některých zdrojů je však tato validace sama o sobě nedostatečná a je potřeba jí doplnit validací externí. Zde se využívá nezávislá testovací množina dat, která je však podobná trénovací sadě. Externí validace regresních modelů se často provádí pomocí střední kvadratické chyby nebo Pearsonova korelačního koeficientu r2. V případě klasifikačních úloh se využívá tzv. matice záměn (nebo taky chybová matice), ze které lze poté určit sensitivitu, specificitu a přesnost modelu.

Používané algoritmy

Pro tvorbu QSAR modelů se používají algoritmy, které jsou využívány při strojovém učení. Nejjednodušším algoritmem používaným při QSAR modelování je mnohonásobná lineární regrese (Multiple Linear Regression). +more Ne vždy je však vztah mezi deskriptory a predikovanou hodnotou lineární a některé modely vyžadují i nelineární vztah. V tomto případě se pak využívá algoritmů jako neurální sítě (Neural Network), náhodný les (Random Forest) a Support Vector Machines.

Mnohonásobná lineární regrese (MLR)

I přestože se jedná o velmi starý matematický nástroj, tak je tento algoritmus velmi oblíbený díky své jednoduchosti. Obecnou rovnici pro MLR lze vyjádřit následovně

Y = a_0 + a_1\cdot X_1 + a_2 \cdot X_2 + ... + a_n \cdot X_n ,  

kde Y je predikovaná hodnota, X jsou deskriptory a a jsou regresní koeficienty. Tato metoda je velmi náchylná na nadhodnocení (overfitting) a proto je důležité zvolit správný počet deskriptorů.

K-means

Tento algoritmus rozdělí data do příslušného počtu (k) skupin. Algoritmus patří do skupiny tzv. +more unsuperised learning (učení bez učitele) algoritmů, což znamená, že vstupní data nemají hledanou (výslednou) hodnotu. Základem metody je definovat k středů (těžišť), každý pro jednu skupinu, a rozmístit je co nejdál od sebe. Následně je každý bod ze sady dat přiřazen k nejbližšímu těžišti. Po přiřazení všech bodů jsou těžiště přepočítaná a proces opakuje, dokud se těžiště nepohybují a v tedy je model hotový.

Rozhodovací strom a náhodný les

Rozhodovací strom (desicion tree) je algoritmus, který může být použit jak pro klasifikační, tak pro regresní úkoly. Tento algoritmus se snaží zobecňovat nebo najít nějaké vzorce (podobnosti) mezi vstupními daty. +more Hlavní myšlenkou je rozdělit sadu dat na dvě skupiny, které je možné aproximovat jedinou hodnotou, v každém kroku. Tento proces je opakován v každém kroku. Rozdělení a aproximovaná hodnota je validována pomocí střední kvadratické chyby po každém kroku. Pokud by se vizualizoval tento proces, tak by vytvářel strom, proto název rozhodovací strom. Náhodný les (random forest) je poté aplikací více rozhodovacích stromů a vytvoření finální predikce z predikcí každého stromů.

Neurální sítě

Inspirace algoritmu neurálních sítí přišla od lidských neuronů. Neuronové sítě se skládají ze tří základních vrstev, vstupní, skrytá (tzv. +more hidden), kterých může být i více než jedna, a výstupní vrstva. Každá vrstva se skládá z neuronů (uzlů). Počet neuronů ve vstupní vrstvě je stejný jako počet vstupních proměnných (deskriptorů). Skrytá vrstva má různé množství neuronů a výstupní vrstva má jenom jeden neuron, ze kterého poté vychází predikovaná hodnota. Uzly ležící v sousedních vrstvách jsou spojeny tzv. synaptickými váhy. Vstupní data jsou zpracována skrz skrytou vrstvu až do výstupní, ze které se získá predikovaná hodnota. Synaptické váhy mezi jednotlivými uzly jsou iterativně upravovány v průběhu trénovací fáze, aby model vykazoval nejlepší predikované hodnoty.

Support Vector Machines

Support vector machines (metoda podpůrných vektorů) slouží pro analýzu dat a k rozpoznání vzorců mezi daty. Je možné použít tuto metodu pro regresivní i klasifikační úlohy. +more Principem této metody je vytvořit hyperrovinu v multidimenzionálním prostoru, aby bylo možné separovat různé skupiny sady dat. Jednoduše řečeno, mezi skupinami dat je nakreslená hranice. Vzdálenost mezi hranicí a třídami je maximální, což zajišťuje minimální chybu.

SAR a SAR paradox

Základním předpokladem je, že podobné molekuly vykazují podobné vlastnosti. Základním problémem je proto, jak definovat malý rozdíl na molekulární úrovni, když každý druh aktivity, schopnost reakce, schopnost biotransformace, rozpustnost atd. +more mohou záviset na dalším rozdílu. Dobré příklady lze nalézt v přehledových článcích o bioisosterech publikovaných Petanie a LaVoiem, Brownem.

Obecně platí, že je spíše třeba nalézt silné trendy. Vytvořené hypotézy obvykle závisí na konečném počtu chemických dat. +more Tudíž by měl být vzat v potaz princip indukce, aby nedošlo k chybným interpretacím dat.

SAR paradox ve zkratce odkazuje na to, že ne všechny podobné molekuly vykazují podobnou aktivitu.

Reference

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top