National Center for Biotechnology Information
Author
Albert FloresNational Center for Biotechnology Information (NCBI) je americké vládní ústředí, které poskytuje přístup ke zdrojům biologických informací prostřednictvím svých webových stránek. NCBI bylo založeno v roce 1988 a sídlí v Bethesdě, Maryland. Jeho hlavním cílem je uchovávat a distribuovat biologické informace, jako jsou sekvence DNA, genové informace, struktury proteinů a biomedicínské výzkumné články. NCBI spravuje také několik databází, včetně GenBank, PubChem, PubMed a BLAST. Tato informační centra jsou využívána vědci, výzkumníky, lékaři a studenty po celém světě. NCBI také vyvíjí různé nástroje a software pro analýzu a manipulaci s biologickými daty.
National Center for Biotechnology Information (NCBI) neboli Národní centrum pro biotechnologické informace je součástí Národní lékařské knihovny USA v areálu americké agentury National Institutes of Health (NIH, Národní zdravotní instituty). Centrum bylo založeno v roce 1988 a sídlí v areálu NIH v Bethesdě v Marylandu. Ředitelem NCBI byl v minulosti David Lipman, známý svou účastí na výzkumu technologie BLAST, užívané k sekvenaci DNA. V současnosti instituci vede Stephen Sherry, v minulosti řídící vývoj genetických databází NCBI.
Úlohou NCBI je ukládání, zpracování a anotace vědeckých dat, zejména z oblastí molekulární biologie, medicíny, biochemie a genetiky. Instituce se také aktivně podílí na vyvíjení nástrojů pro analýzu bioinformatických dat. +more V databázích NCBI se soustřeďují výsledky sekvenací DNA (GenBank), vědecké články (PubMed Central, PubMed), informace o genech (RefSeq, Gene), anotace sekvencí makromolekul (Protein, Nucleotide) nebo mapovací data již osekvenovaných genomů (Genome). Služby NCBI jsou volně dostupné, podobně jako u bioinformatických institutů jako European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) nebo DNA Data Bank of Japan (DDBJ).
Pro tvorbu svých databází využívá NCBI data ukládané vědeckou komunitou manuálně přímo do NCBI nebo získávané jejich výměnou se spřízněnými institucemi jako např. DDBJ, European Molecular Biology Laboratory (EMBL), Protein Information Resource (PIR) nebo vydavateli vědecké literatury. +more Minoritní podíl na zisku dat tvoří také cílené správcovské aktivity NCBI, data aktivně vkládaná zaměstnanci centra. Množství uložených dat v NCBI roste exponenciálně - v roce 2020 bylo ve všech databázích NCBI celkově uložených přes 3 miliardy záznamů, v porovnání s přibližně 680 miliony záznamy v roce 2012 a 90 miliony záznamy v roce 2007. Služby NCBI jsou denně využívány až 4 miliony použivatelů.
Prohledávání NCBI je zprostředkováno systémem Entrez, kterého výstupem je komplexní záznam získaný z více propojených databází. NCBI také umožňuje prohledávání svých databází za účelem nalezení podobných sekvenci pomocí algoritmu Basic Local Aligment Search Tool (BLAST). +more Pro stažení všech relevantních dat přirazených k danému databázovému záznamu slouží The Entrez Programming Utilities (E-utilities).
Basic Local Alignment Search Tool (BLAST)
BLAST je algoritmus určený pro vyhledávání podobných sekvenci mezi uloženými (nukleotidovými nebo proteinovými) sekvencemi. Při prohledávání NCBI pomocí BLAST je možné použít různé vstupní parametry (např. +more skórovací tabulka, prohledávaná databáze) podle předem požadovaných kritérií. Výstupní sekvence jsou seřazené dle statistické významnosti nalezené shody. BLAST může být také využitý pro určení funkčních a evolučních vztahů mezi sekvencemi nebo pro nalezení homologních členů stejné genové rodiny. V NCBI se nachází více verzí BLAST, které umožňují prohledávat příbuzné nukleotidové sekvence (BLASTN), proteinové sekvence (BLASTP), proteinové sekvence z výchozí translatované nukleotidové sekvence (BLASTX), translatované nukleotidové sekvence z výchozí sekvence proteinu (TBLASTN) nebo translatované nukleotidové sekvence z výchozí translatované nukleotidové sekvence (TBLASTX).
GenBank
GenBank je databáze genetických sekvencí obsahující anotovanou sbírku DNA sekvencí. GenBank je spolu s DNA Data Bank of Japan a European Nucleotide Archive součástí tzv. +more International Nucleotide Sequence Database Collaboration (INSDC), které aktivně spolupracují na archivaci nukleotidových sekvencí. Mezi těmito institucemi také dochází k vzájemné výměně uložených dat na denní báze. Nové vydání GenBank vychází průběžně v dvouměsíčních intervalech zveřejněním na stránce ftp. Jednotlivé záznamy v GenBank jsou katalogizované pod unikátním šestimístným číslem a obsahují údaje jako zdrojový organismus, stručný popis k dané sekvenci, délka a typ sekvence, pořadí nukleotidů ve formátu FASTA a také bibliografický záznam.
PubMed
PubMed je nástroj pro prohledávání vědecké literatury, uložené v bibliografické databázi MEDLINE s obsahem přes 32 miliónu citaci a abstraktů z více než 5200 vědeckých časopisů. Rozhraní PubMed umožňuje komplexní prohledávání vědeckých prací a poskytuje externí odkazy na plné texty a stránky publikací. +more Vybrané volné publikace jsou taky dostupné v archivu PubMed Central (PMC), který obsahuje přes 6 milionů plných textů zejména z biomedicinské a biologické oblasti výzkumu. PubMed je jako databáze veřejnosti přístupna od roku 1996. Reference v PubMed jsou automaticky převzaté prostřednictvím MEDLINE z vybraných časopisů, jež jsou průběžně aktualizovaná komisí Literature Selection Technical Review Committee (LSTRC).
Reference Sequence (RefSeq)
Databáze RefSeq shromažďuje sekvence genomových DNA, jejich transkriptů a proteinů za účelem tvorby rozsáhlé neredundantní sbírky integrující sekvenční, genetické a funkční informace v jednom záznamu. Záznamy v RefSeq vycházejí z archivu INSDC, jejíž součástí je i GenBank, převzatá data jsou automaticky anotovaná a postupně validovaná správci databáze. +more Data do RefSeq jsou v menší míře získávané také v rámci spolupráce s projekty jako Saccharomyces Genome Database nebo The Arabidopsis Information Resource. Unikátní identifikační číslo jednotlivých záznamů je dynamické a liší se v závislosti na typu sekvence a množství validovaných údajů o dané sekvenci.
Gene
Gene je databází organizující data specifické pro geny. Na rozdíl od RefSeq jsou do databáze zahrnovány pouze geny z již osekvenovaných genomů nebo které jsou předmětem aktivního výzkumu. +more Všechny záznamy v Gene mají přidělený unikátní identifikátor GeneID. Obsahem záznamu jsou nomenklatura genu, jeho lokalizace v rámci genomu, genové produkty a jejich vlastnosti, expresní informace, markery, informace o fenotypu, nukleotidová sekvence, známé homology, proteinové domény a bibliografická data.
Genome
V databázi Genome se nachází sekvenční a mapovací data již osekvenovaných nebo průběžně sekvenovaných genomů. Obsahuje informace o genomech z přes 1000 různých druhů nebo kmenů, ze všech domén organismů. +more Genome zahrnuje sekvence nukleotidů genomů, mapy genetických markerů, variace (např. jednonukleotidové polymorfismy) a údaje z epigenomických studií. Vzhledem na přirozenou velikost a komplexnost genomových dat jsou záznamy členěné na jednotlivé chromozomy s unikátními RefSeq identifikátory. K prohlížení záznamů eukaryotických genomů uložených v Genome je možné použít rozhraní online prohlížeče Genome Data Viewer, umístěného na webové stránce NCBI.
Reference
Externí odkazy
[url=http://www. ncbi. +morenlm. nih. gov/]Oficiální stránka National Center for Biotechnology Information[/url] * [url=http://www. ncbi. nlm. nih. gov/sites/entrez. db=books]NCBI Seznam knih[/url] * [url=http://www. ncbi. nlm. nih. gov/sites/entrez]PubMed centrála[/url].