Strukturní alignment
Author
Albert Flores[[Soubor:Alignment_of_thioredoxins2.png|alt=|náhled|308x308bod|Strukturní alignment thioredoxinu z člověka a z Drosophila melanogaster. Lidský protein je červený a hmyzí žlutý. Generováno pomocí PDB databáze, id proteinů jsou [url=https://www.rcsb.org/structure/3TRX]3TRX[/url] a [url=https://www.rcsb.org/structure/1XWC]1XWC[/url].]] Strukturní alignment je způsob porovnávání polymerních struktur na základě jejich tvaru a prostorového rozložení. Kromě určování podobností proteinů nachází využití i při porovnávání molekul RNA.
Určení podobnosti proteinů patří mezi důležité faktory správné klasifikace proteinů, ze strukturní podobnosti s ostatními proteiny lze vyvodit informace o evolučním vývoji, nebo biologické funkci, čehož se využívá např. při klasifikaci nově objevených proteinů, u kterých je známa pouze struktura. +more Pro strukturní alignment není potřeba předem znát informace o společných oblastech proteinů. V případě, že mají proteiny velkou sekvenční podobnost, využívá se spíše sekvenční alignment namísto strukturního.
Pro tvorbu alignmentu existují desítky algoritmů, liší se především v reprezentaci terciární struktury a rozdílnému přístupu ke kvantifikaci rozdílů ve struktuře. Optimálním alignmentem nazýváme soustavy souřadnic v prostoru reprezentující porovnávané proteiny, které se překrývají tak, aby mezi nimi byla nejmenší možná odchylka.
Ohodnocení podobnosti proteinů
Tvorbu alignmentu předchází analýza porovnávaných proteinů, za účelem zjištění podobností jednotlivých oblastí. K tomu je potřeba vytvořit takovou počítačovou reprezentaci proteinů, aby umožnila výpočet. +more Obecně je lze rozdělit na trojrozměrnou (3D), dvojrozměrnou (2D), jednorozměrnou (1D), popř. lze charakterizovat protein jedinou hodnotou (0D). Ačkoli redukcí struktury ztrácíme informace, zvyšujeme tím rychlost algoritmu a v některých případech je to žádoucí. Problém nalezení všech podobných oblastí proteinů totiž patří do třídy NP-těžkých úloh a pouze pomocí správné reprezentace dat a funkce pro ohodnocení porovnání lze zkonstruovat algoritmus řešící problém v rozumném výpočetním čase.
3D reprezentace
Schéma porovnání struktur proteinů U 3D reprezentace se měří rozdíly v pozici ekvivalentních atomů, buď při pevně daném přiřazení k sobě (statické porovnání), nebo při možnosti natočení určitých oblastí (flexibilní porovnání). +more Flexibilní způsob umožňuje otočit určité úseky v rámci molekul blíže k sobě, čímž je umožněno určit podobnost mezi proteiny s konformační odlišností. Díky tomu podává přesnější informace a je v současnosti nejvíce využíván. Samotné hodnocení podobnosti závisí na několika faktorech - rozdílu v počtu společných domén (N_e), rozdílu v pozicích atomů (root mean square deviation - \textstyle \surd{\frac{\sum_{i=1}^{N_e}d^2_i}{N_e} \displaystyle}) a v penalizování mezer.
2D reprezentace
Zjednodušení struktury pomocí ekvivalence reziduí, na základě totožných terciárních interakcí. Interakce mezi rezidui je popsána pomocí kontaktních map, grafů, nebo vzdálenostních matic. +more Využívá se topologické analýzy proteinů. Oproti 3D reprezentacím nejsou vyhodnocovány vzdálenosti mezi terciárními strukturami, ale pouze mezi páteří jednotlivých proteinů.
1D reprezentace
1D reprezentaci se také říká strukturní profil. Jedná se o klasifikaci každého rezidua na základě typu aminokyseliny a konformačním stavu páteře. +more Celý protein je zredukován do řetězce symbolů, na který lze jednoduše aplikovat optimalizované algoritmy, avšak taková redukce sebou nese limitované možnosti detekce podobnosti proteinů, které mají rozdílnou nadstavbu na základní kostře.
0D reprezentace
Redukce celého proteinu do jedné hodnoty, popřípadě histogramu. Podobné struktury generují stejné, nebo přibližně stejné hodnoty. +more Uložení v tabulkách (databázích) a nahlížení na hodnoty pomocí indexu poskytuje nejrychlejší způsob hledání. Problémem je nemožnost porovnání podoblastí proteinů.
Algoritmy pro alignment
Jakmile je známa podobnost proteinů, je zkonstruován optimální alignment. Algoritmy klasicky využívají různé heuristické přístupy, aby zjednodušili výpočet.
Combinatorial extension (CE)
Algoritmus CE byl vymyšlen již v roce 1998. Algoritmus nejprve rozdělí proteiny na fragmenty, ze kterých vytvoří sub alignmenty AFP (z angl. +more Alignment Fragment Pairs). Postupných přidáváním dalších párů dochází k vytvoření úplného alignmentu. Délka AFP je v ideálním případě 8 aminokyselin. Uživatel si však může ovlivňovat konečný výsledek pomocí volby parametrů, dle kterých bude algoritmus pracovat. Kromě délky AFP to může být třeba délka možné mezery mezi jednotlivými AFP. CE je využíván např. v databázi PDB pro porovnávání proteinů.
Distance alignment matrix method (DALI)
Schéma tvorby vektorů u algoritmu SSAP. +more Z těchto vektorů se zkonstruuje série rozdílů vektorů, např. mezi FA v proteinu 1 a SI v proteinu 2. Podobně jako CE je založen na fragmentaci struktury proteiny, ale ideálně na hexapeptidové úseky. Následně vytvoří vzdálenostní matici vyhodnocením kontaktů mezi fragmenty jednotlivých proteinů. Na hlavní diagonále jsou obsaženy rezidua, které tvoří určitou sekundární struktury a nacházejí se vedle sebe v sekvenci. Na vedlejších diagonálách jsou reprezentovány úseky, které se prostorově dotýkají, ale nenacházejí se vedle sebe v sekvenci. Pokud jsou diagonály rovnoběžné, jedná se o typ sekundární struktury, která se vyskytuje paralelně. V případě, že jsou diagonály kolmé, jsou sekundární struktury antiparalelní. Taková matice je vytvořena pro každý protein a dále jsou analyzovány jejich podobnosti. DALI je možné využívat na [url=http://ekhidna2. biocenter. helsinki. fi/]webu. [/url].
Sequential structure alignment program (SSAP)
Využívá dvojité dynamické programování k vytvoření alignmentu. Na rozdíl od většiny algoritmů nepracuje s alfa uhlíky pro lokalizaci aminokyselin, ale s beta uhlíky. +more Tímto je umožněno při porovnávání zahrnout rotaci daného rezidua. Nejprve dojde ke konstrukci vzdálenostních vektorů mezi každým reziduem a jeho nejbližším sousedem, který se nenachází hned vedle v sekvenci. Z vektorů je následně vytvořena matice, ze které je pomocí dynamického programování získán ideální alignment. Původně byl algoritmus využit pouze pro párový alignment, ale je již optimalizován i pro vícenásobný. Je využíván např. v databázi CATH.
RNA strukturní alignment
Dlouhé RNA molekuly tvoří charakteristické terciární struktury, které jsou udržovány vodíkovými vazbami mezi nukleotidovými bázemi. Alignment nekódujících RNA molekul je důležitý, protože struktura je více konzervovaná než sekvence bází. +more Příkladem softwaru, sloužícímu k RNA alignmentu je SETTER, který pomocí alignmentu fragmentů RNA vytvoří optimální celkový alignment. Lze jej využívat skrze [url=http://siret. ms. mff. cuni. cz/]webové stranky[/url].