FastQC

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

FastQC je program nebo nástroj, který poskytuje kontrolu kvality sekvencí DNA na různých úrovních.

Základní informace

Poskytuje analýzy velkého množství sekvanačních dat získaných hlavně sekvenováním metodou “Next-Generation Sequencing”. Nástroje, které přináší QC report o kvalitě, většinou odhalí problémy, které vznikly sekvenátorem, ale report kvality, který přináší FastQC odhalí i problémy vzniklé již v počátcích přípravou laboratorních knihoven. +more Přináší rychlou kontrolu kvality sekvenčních dat od základní statistiky až po další analýzy. Po analyzování výsledky uživatel obrdrží ve formátu HTML, kde v levém panelu podle barev okamžitě rozpozná úroveň výsledku analýzy potažmo kvality. (Výsledné moduly jsou označeny kruhy v barvách semaforu od zelené po červenou. ) Barevné rozdělení pro rychlou kontrolu - zelená fajfka - normální nebo dobrá kvalita, oranžový trojúhelník - mírně abnormální kontrolovaná kvalita a červený křížek - velmi neobvyklé. Více o konkrétních modulech/analýzách naleznete níže.

Použití

Lze s programem pracovat v interaktivním a neinteraktivním rozhraní. Interaktivní rozhraní je ve formě aplikace, to slouží pro rychlou analýzu několika souborů. +more Neinteraktivní, které uživatel ovládá přes příkazovou řádku terminálu, dokáže provést analýzu většímu počtu souborů. Alternativní možností pro analýzu opravdu velkého počtu souborů je nástroj MultiQC.

Podporované formáty souborů

Nástroj FastQC dokáže analyzovat sekvence ve formátech souborů : * FastQ (všechny kódovací varianty) * Casava FastQ files - obvykle stejný formát jako FastQ, nicméně bývá několik souborů pro jeden jediný vzorek, přesto FastQC zahrne soubory pro jeden vzorek do jedné skupiny a vytvoří kompletní report pro všechny soubory od jednoho vzorku. * Colorspace FastQ * GZip komprimované FastQ * SAM * BAM

Funkce - moduly

Níže stručný popis jednotlivých modulů.

Basic statistic

Základní statistika popisuje ve shrnující tabulce základní údaje - typ souboru, název souboru, kódování - sekvenování (najít), kompletní počet sekvencí, zachycené sekvence s nízkou kvalitou, délka sekvencí, procentuelní podíl GC.

Per base sequence quality

Výsledný graf je rozdělen na tři bloky dle barev odrážejících kvalitu.

Per tile sequence quality

V ideálním případě by měl graf být čistě modrá obrazovka. V případě, že se objeví modrá obrazovka s několika barevnými plochami v barevné škále od teplých po studené barvy, značí, že uživatel má v datech sekvenovaných Illuminou ještě zůstalé identifikátory sekvencí z laboratorních knihoven.

Per sequence quality scores

Ukazuje zda některé skupiny sekvencí z celku mají přirozeně nízké hodnoty kvality.

Per base sequence content

Graf ukazuje proporci všech čtyř bází v souboru. U náhodných sekvencí lze očekávat rozložení rovnoměrné, a proto by v grafu měly všechny čtyři čáry (každá pro jednu ze čtyřech bází) jít rovnoměrně a vodorovně.

Per base GC content

Neměl by být vychýlen, a ta ve výsledném grafu by měla jít čára vodorovně.

Per sequence GC content

Měří obsah GC v celé délce každé sekvence v souboru a porovnává ho s grafem modelového obsahu GC.V grafu by měl výsledek pro soubor korespondovat s křivkou normálního rozložení dle modelu.

Per base N content

V případě, že by byl sekvenátor neschopný přečíst bázi, v soubory by se pro nepřečtené objevovaly nahrazené báze písmenem N. V grafu by měla být křivka kopírující osu x, tudiž nulý obsah báze N.

Sequence length distribution

Tento modul generuje graf, který ukazuje distribuci délky fragmentů v sekvencích. Ve většině případů sekvenátor generuje fragmenty stejné délky, a tak v grafu je křívka s jedním vrcholem.

Sequence duplication level

Tento modul ukazuje stupeň úrovně duplikace některých sekvencí v souboru.

Overrepresented sequences

Tento modul ukazuje sekvence, které se vyskytují nadměrně v souboru, od hladiny vyšší než 0,1%. Buď to naznačuje, že jsou sekvence velmi signifikantní nebo naopak to značí kontaminaci vzorků. +more Výsledek není zobrazen grafem - buď je ve formě jedné informační věty, že soubor neobsahuje nadměrně se vyskytující sekvence, nebo ty nadměrně se vyskytující vypíše.

Kmer content - Adapter content

Kontroluje, zda nezůstaly v sekvencích nějaké sekvenační adaptory použité ke značení při sekvenaci.

Odkazy

Reference

Externí odkazy

Kategorie:Bioinformatika

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top