Frontiers in Genetics

Editorial on the Research Topic
RNA-Seq Analysis: Metody, aplikace a výzvy

Úvod

RNA-seq způsobila revoluci v přístupu výzkumné komunity ke studiu genové exprese. Tato technologie totiž otevřela možnost kvantifikovat úroveň exprese všech genů najednou, což umožňuje výběr kandidátů ex post (nikoli ex ante), kteří by mohli být zajímaví pro určitou studii. Neustálý pokles nákladů a nezávislost protokolů přípravy knihoven na modelových druzích přesvědčily zúčastněné strany, aby investovaly do této technologie tím, že vytvořily konsorcia schopná produkovat rozsáhlé soubory dat specifické pro danou chorobu, které následně podpořily transkriptomický výzkum na populační úrovni. Kromě mnoha jiných je v tomto smyslu dobrým příkladem The Cancer Genome Atlas. V krátké době se RNA-seq posunula od technologie, která slouží pouze ke kvantifikaci exprese genů, k mocnému nástroji, který umožňuje: objevovat nové transkripty (prostřednictvím sestavení transkriptomu de novo), charakterizovat alternativní varianty sestřihu nebo nové typy buněk (prostřednictvím sekvenování RNA jednotlivých buněk). Využití RNA-seq pro každodenní diagnostické činnosti již není snem, ale konsolidovanou realitou.

Přestože existují zavedené osvědčené postupy, správa dat RNA-seq není snadná. Před sekvenováním je nezbytné pečlivě naplánovat přípravu knihovny, aby se minimalizovala zkreslení následné analýzy. Dalším důležitým faktorem je optimalizace rozpočtu. Sekvenování více vzorků zvyšuje statistickou sílu a snižuje nežádoucí vedlejší účinky způsobené šumem a variabilitou. Více vzorků však znamená vyšší náklady. Multiplexování se ukázalo být účinným nástrojem k omezení rozpočtu, aniž by byl obětován počet vzorků. Čárový kód DNA umožňuje kombinovat až 96 vzorků do jedné linie, čímž se vymění nižší hloubka sekvenování za vyšší počet sekvenovaných vzorků. Nevýhodou této techniky je zvýšená zátěž při analýze dat, aby se dosáhlo stejné přesnosti, jaké by se dosáhlo s bohatším vstupem.

Při následném sekvenování musí být data fastq validována a zpracována, aby se surová čtení vydestilovala do kvantitativní míry genové exprese. Zatímco validace je jaksi standardním postupem, počet čtení závisí na typu RNA (mikroRNA atd.) a na cílové aplikaci. Obvykle jsou čtení: podrobena odstranění adaptérů, zarovnána s referenčním genomem, seskupena podle funkčních jednotek (např. transkripty, geny, mikroRNA atd.), normalizována a spočítána. Následné analýzy se mohou výrazně lišit v závislosti na aplikaci. V nejjednodušším nastavení by měla být objevena podmnožina genů odpovědných za rozdíly ve fenotypu mezi dvěma populacemi. V jiných případech lze chtít sestavit koexpresní (nebo reverzní expresní) síť za účelem nalezení interagujících genů nebo dráhy související s určitým fenotypem. Další aplikace se týkají objevování neznámých buněčných typů, uspořádání buněčných typů do homogenních rodin, identifikace nových molekul (např, nové mikroRNA, dlouhé nekódující RNA atd.) nebo anotace nových variant či alternativních sestřihů.

Organizace výzkumného tématu

Toto výzkumné téma je rozděleno do tří hlavních částí: pět článků se zabývá pracovním postupem RNA-seq, čtyři příspěvky pojednávají o nejnovější hranici sekvenování jednobuněčné RNA, zatímco poslední čtyři příspěvky informují o případových studiích, které se týkají profilování nádorů a rostlinné vědy.

V první části jsme se pokusili analyzovat proces RNA-seq (od návrhu experimentu až po analýzu a extrakci nových poznatků) zdůrazněním klíčových možností nejmodernějších pracovních postupů. Přestože jsme se zaměřili především na výpočetní aspekty, věříme, že toto Výzkumné téma může zaujmout ty čtenáře, specializované v oblasti věd o živé přírodě, kteří se hodlají stát nezávislými a samostatnými při analýze vlastních dat. Dva články této sekce popisují nové metody: pro identifikaci diferenciálně exprimovaných genů a pro predikci kódující schopnosti cirkRNA.

Druhá sekce představuje nejnovější odvětví analýzy dat RNA-seq: sekvenování jednotlivých buněk (scRNA-seq). Ačkoli je tato technika koncepčně podobná hromadnému sekvenování buněk, rozlišení jednotlivých buněk přináší velké množství šumu, který vyžaduje ad hoc metody analýzy. Velká část tohoto oddílu je věnována představení základních pojmů sekvenování RNA v jedné buňce, od laboratorních protokolů až po nejběžnější analýzy. Zejména jsou diskutovány problémy hodnocení výsledků shlukování buněčných typů a reprodukovatelnost experimentů s diferenciální expresí. Nakonec tuto část uzavírá popis nové metody pro odvození chybějících počtů v důsledku nedostatečného pokrytí sekvenování.

Poslední část výzkumného tématu byla věnována čtyřem případovým studiím: třem týkajícím se nádorů a jedné aplikaci v rostlinné vědě. Důvodem tohoto výběru byla snaha ukázat různé typy analýz. V koncepčně jednodušším případě bylo cílem analýzy vytvořit panel genů prognostických pro vznik rakoviny. Dále je uveden příklad sítě koexprese. Nakonec byl uveden příklad interakce mezi různými typy RNA (dlouhé nekódující, geny, mikroRNA), který ukazuje složitost drah, které regulují život buněk.

2.1. Složení sítě RNA v buňkách Analýza RNA-Seq

V článku Reeda a kol. je diskutována možnost, kterou nabízí multiplexní sekvenování RNA. Studie poskytuje srovnání několika metod s použitím reálných dat z imortalizovaných lidských plicních epiteliálních buněk.

V článku Peri et al. je navržen RMTA, uživatelsky přívětivý pracovní postup analýzy. RMTA byl navržen tak, aby poskytoval standardní nástroje pro předzpracování (tj. analýzu kvality čtení, filtry pro málo exprimované transkripty a počítání čtení pro analýzu diferenciální exprese) ve škálovatelném a snadno nasaditelném prostředí.

In Jimenez-Jacinto et al., an integrative differential expression analysis web server (IDEAMEX) is described. Smyslem IDEAMEX je osvobodit nezkušené uživatele od (někdy frustrující) zkušenosti s interakcí s prostředím UNIX pro standardní analýzy diferenciální exprese.

V článku Gao et al. je popsána nová metoda identifikace diferenciálně exprimovaných genů. Klíčovým zjištěním této práce je, že binomické rozdělení, které je základem většiny algoritmů pro analýzu diferenciální exprese, není schopno zachytit charakteristiky nedostatečného rozptylu dat RNA-seq.

V práci Sun a Li je zkoumán problém předpovědi, zda daná kruhová RNA může být přeložena, nebo ne. Kruhové RNA se od ostatních typů RNA liší tím, že jsou uspořádány jako kruhy spojující 3′ a 5′ koncové body. Tato vlastnost ztěžuje rozhodování o jejich translačním potenciálu. V rukopise je uveden algoritmus, který umožňuje s vysokou citlivostí určit schopnost kódování cirkRNA.

2.2. Překladové schopnosti cirkRNA Sekvenování jednobuněčné RNA

V článku Chena a kol. je uveden přehled v současnosti dostupných protokolů izolace jednobuněčné RNA a technologií scRNA-seq. Dále je diskutováno několik metod analýzy dat scRNA-seq, od kontroly kvality až po rekonstrukci sítě.

V článku Krzak et al. je rozebráno využití shlukování ke studiu heterogenity buněk. Cílem této práce je zejména poskytnout nové poznatky o výhodách a nevýhodách shlukování scRNAseq a upozornit na otevřené problémy.

V článku Mou et al. jsou diskutovány některé otázky spojené s reprodukovatelností studií diferenciální exprese. Složitost tohoto typu analýz stojí v malém množství RNA a v následném nižším poměru signálu k šumu. Článek ukazuje výhody a nevýhody standardního a ad-hoc softwaru pro diferenciální expresi.

V článku Mongia et al. je podrobně popsána metoda imputace výpadků v datech o expresi jedné buňky. Experimenty na reálných datech ukazují, že navrhovaný software je schopen rozlišit skutečnou nepřítomnost čtení od událostí výpadku.

2.3. Případové studie

V práci Yin et al. je analýza diferenciální exprese použita k určení malého panelu genů potenciálně prognostických pro vznik glioblastomu. Článek se zaměřuje na zlepšení klasifikace zdravý/nemocný bez ohledu na interakce mezi geny.

V článku Zhu et al. jsou identifikovány koexprimované geny za účelem vytvoření sítě interakcí. Následně je síť analyzována s cílem vybrat uzlové geny spojené se sarkomy měkkých tkání.

V článku Zheng et al. je studována dynamika interakcí mezi různými molekulami u adenokarcinomu plic. Článek informuje o tom, jak dysregulace dlouhé nekódující RNA spouští sled dysregulací, které způsobují zastavení buněčného cyklu.

V článku Tengkun et al, jsou integrována genomická a trascriptomická data s cílem identifikovat klíčové geny, které ovlivňují biosyntézu antokyanů transformující kvantitativní znaky na znaky kvality.

Příspěvky autorů

Všichni autoři se rovným dílem podíleli na sestavení a úpravě výzkumného tématu a na tomto editorialu.

Financování

IS byl podpořen grantem (DST/INT/POL/P-36/2016) Ministerstva vědy a technologie, Indie.

Konflikt zájmů

Autoři prohlašují, že výzkum byl prováděn bez jakýchkoli komerčních nebo finančních vztahů, které by mohly být chápány jako potenciální střet zájmů.

Konflikt zájmů

Autoři prohlašují, že výzkum byl prováděn bez jakýchkoli komerčních nebo finančních vztahů, které by mohly být chápány jako potenciální střet zájmů.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.