GenBank

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

GenBank je veřejně přístupná anotovaná sekvenční nukleotidová databáze (http://www.ncbi.nlm.nih.gov). V současné době obsahuje nukleotidové sekvence více než 260 000 popsaných druhů organismů. GenBank je spravována National Center for Biotechnology Information (NCBI) spadajícím pod National Library of Medicine (NLM) umístěném v kampusu National Institutes of Health (NIH) v Bethesdě v USA. GenBank je součástí konsorcia International Nucleotide Sequence Database Collaboration (INSDC), mezi něž patří také DNA DataBank of Japan (DDBJ) a databáze European Molecular Biology Laboratory (EMBL). Tyto tři největší světové primární databáze (tzv. databáze Velké trojky) každý den navzájem sdílejí data a zároveň se tak zálohují. Do GenBanku přispívají jednotlivé individuální laboratoře i velká genomová sekvenační centra.

Přístup

Přístup a vyhledávaní na GenBank je zajištěno přes NCBI Etrez, který zároveň integruje vyhledávání v hlavních DNA a proteinových strukturních a sekvenčních databázích a v hlavní databázi odborných biomedicínsky zaměřených časopisů - PubMed. Kromě přístupu přes webové rozhraní (http://www. +morencbi. nlm. nih. gov/genbank/) lze také prostřednictvím FTP celou databázi k danému datu bezplatně nainstalovat na konkrétní počítač. V tomto případě je však nutno ji pravidelně aktualizovat - NCBI uvolňuje novou verzi každé 2 měsíce.

Nahrání záznamu

K nahrání dat do databáze slouží specializované programy BankIt a Sequin, jejichž prostřednictvím nahrávají vědečtí pracovníci svá originální sekvenační data. Většina impaktovaných časopisů v současné době už podmiňuje publikaci výsledků nahráním sekvenačních dat do některé z veřejně přístupných databází, nejčastěji databází Velké trojky.

Po nahrání do databáze obdrží každá sekvence svůj unikátní identifikátor - přístupový kód (accession nuber) skládající se z proměnného počtu čísel a písmen. Tento kód je neměnný, je společný GenBank, DDBJ a EMBL-Bank a lze podle něj příslušnou sekvenci kdykoliv dohledat. +more Spolu s publikací v GenBank každá sekvence obdrží tzv. GI číslo (GenBank Identifier). Na rozdíl od přístupového kódu tento identifikátor již není po celou dobu záznamu neměnný, ale může se změnit s úpravou sekvence, např. při nahrání nové či opravené verze sekvence. GI umožňuje efektivnější a rychlejší vyhledání konkrétního záznamu.

Po nahrání mohou záznam upravovat pouze autoři, a to i v případě, že je záznam chybný nebo duplicitní. Vzhledem k tomu, že většina databází včetně Genbank je nemoderovaných, databáze mohou obsahovat duplicitní záznamy - více záznamů stejné sekvence vložené různými autory s různým accession number. +more Mohou obsahovat také chybné určení sekvence dané kontaminací, např. houbový patogen rostlin může být popsán jako rostlinná sekvence, jelikož může kontaminovat vzorky rostlinné DNA. Řada chyb v sekvencích se může objevit také během nahrávacího procesu. Někteří autoři se domnívají, že až více než jedna polovina sekvencí mitochondriální DNA člověka nahrané do GenBank obsahuje chyby, a proto by měl být její obsah více kontrolován a kriticky posuzován.

Základní typy datových záznamů

Základní typy záznamů v databázi GenBank jsou:

standardní originální nukleotidové sekvence - sekvence získané sekvenováním fragmentů genomové DNA

sekvence EST (expressed sequence tags) - neúplné sekvence konců jinak necharakterizovaných cDNA; data obvykle nižší kvality než "standardní" sekvence

sekvence HTGS (high throughput genome sequencing) - dosud neposkládané a neanotované sekvence pocházející ze sekvenování genomů

sekvence WGS (whole-genome shotgun) - referenční sekvence již většinou poskládaných a anotovaných kompletních genomů

sekvence TPA (third party annotation) - sekvence anotované jinými než původními autory

sekvence TSA (transcriptome shotgun assembly sequence) - sekvence transkriptomů získané reverzním přepisem revezní transkriptázou z mRNA do cDNA, jedna z nejrychleji narůstajících oblastí dat

sekvence ENV (Environmental sample sequence) - environmentální DNA získaná sekvenováním celých společenstev často nepopsaných organismů, např. metagenomická data získaná z biofilmů, sedimentů, horkých pramenů, povrchu tkání apod. +more; v případě prokaryot se nejčastěji jedná o sekvenci 16S rRNA.

Vyhledávání

K vyhledávání sekvenčně podobných záznamů slouží program BLAST a jeho nejrůznější modifikace. Hledaná sekvence (query) je podle algoritmu porovnána se sekvencemi obsaženými v databázi.

Historie

Databáze GenBank vznikla jako veřejná databáze v roce 1982 přeměnou databáze Los Alamos Sequence Database Waltera Goada a jeho spolupracovníků z Theoretical Biology and Biophysics Group na Los Alamos National Laboratory (LANL) z roku 1979. Na vzniku databáze se finančně podílely National Institute of Health (NIH), National Science Foundation, Department of Energy a Department of Defense v USA. +more Od poloviny 80. let správu nad GenBank převzala IntelliGenetics Bioinformatics Company na Stanfordově univerzitě společně s LANL. Mezi roky 1989 a 1992 byla databáze GenBank postupně převedena pod správu nově vytvořeného National Center for Biotechnology Information (NCBI).

Růst

Počet párů bází se na GenBank od roku 1982 zdvojnásobí zhruba každých 18 měsíců, což klade velké nároky na softwarové a hardwarové vybavení. Každé 2 měsíce je uvolňována nová verze databáze pro stažení přes FTP programy, tzv. +more release. K aktualizaci záznamů online dochází průběžně. V dubnu 2013 pří uvolnění 195. verze GenBank databáze obsahovala celkově 151 178 979 155 bází 164 136 731 sekvencí.

Reference

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top