Gene3D

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Gene3D je komplexní databáze proteinových domén. Umožňuje sjednocený pohled na proteiny z hlediska struktury, molekulární funkce i evolučního vývoje. Již v roce 2005 poskytovala více než 240 genomů (i kompletních proteomových sad) různých organismů.

Princip

Gene3D spojuje velké množství proteinových rodin a funkčních databází. Kombinuje dva základní principy vyhledávání funkčních domén. +more Prvním principem je detailní znalost funkčních částí, ze kterých je složen protein, což umožňuje přesnější predikci než získání funkční informace jednoduchým převodem z nejvíce podobných sekvencí. Pokud ale architektura domény neodhalí specifickou funkci, přesnější informaci mohou poskytnout proteinové sekvence sdružené do rodin. Za účelem větší efektivity jsou zde zahrnuty i další zdroje kvalitních funkčních dat.

Domény jsou v Gene3D přímo mapovány na základě struktur v CATH databázi (CATH je úložiště manuálně odvozených proteinových domén), což je podobný princip, jako využívá Superfamily pro SCOP, nebo jsou predikované použitím reprezentativního profilu HMM (Hidden Markov Model), který je odvozený z CATH superrodin. Využívá svou vlastní databázi BioMap, což je v podstatě úložiště biologických dat obsahující mapování mezi několika zdroji a UniProt sekvenčních databází.

Pro větší spolehlivost přenosu funkčních dat mezi sekvencemi byl UniProt sjednocen do jednotlivých proteinových rodin prostřednictvím Tribe-MCL. Díky tomu měl již v roce 2006 kolem 1,8 milionu sekvencí zařazeno k nějaké proteinové rodině (tj. +more do skupiny, která má jednoho společného předka), což usnadňuje přenos funkčních informací.

Uživatelé si mohou data z Gene3D stáhnout ve formátu XML.

Vývoj

V roce 2006 byla databáze rozšířena přidáním sekvenční databáze UniProt, doménových dat z Pfam, metabolických drah a funkčních dat z COG, KEGG a GO databází a přidáním interakcí mezi proteiny z databází MINT a BIND.

Gene3D je neustále aktualizována a přebudovávána. Současná verze je Gene3D v6 (začátek roku 2018), ve které bylo přidáno např. +more zobrazení domén v genovém stromu nebo byla přidána vizuální funkce ProtVista, která umožňuje vizualizaci přiřazené domény s velkým množství dalších komplementárních sekvencí. Dále byla např. přidána databáze Human Protein Atlas, zahrnující proteomická data, informace o expresi rakovino-specifických genech a o buněčných dráhách.

V současnosti Gene3D obsahuje miliony proteinových sekvencí. Současně je zde více než 52 milionů sekvencí přiřazených k nějaké doméně (začátek roku 2018).

Reference

https://academic.oup.com/nar/article/46/D1/D435/4588111 * http://gene3d.biochem.ucl.ac.uk/ * https://www.ncbi.nlm.nih.gov/pubmed/22139938

Kategorie:Biologické databáze Kategorie:Bioinformatika

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top