Editorial om forskningsämnet
RNA-Seq-analys: Metoder, tillämpningar och utmaningar
Introduktion
RNA-seq har revolutionerat forskarvärldens sätt att studera genuttryck. Denna teknik har faktiskt öppnat möjligheten att kvantifiera uttrycksnivån för alla gener på en gång, vilket gör det möjligt att i efterhand (snarare än i förväg) välja ut kandidater som kan vara intressanta för en viss studie. Den kontinuerliga kostnadsminskningen och det faktum att protokollen för framställning av bibliotek är oberoende av modellarterna har övertygat intressenterna om att investera i denna teknik genom att skapa konsortier som kan producera stora sjukdomsspecifika datamängder, vilket i sin tur har främjat transkriptomisk forskning på befolkningsnivå. Bland många andra är cancergenomatlasen ett bra exempel i detta avseende. På kort tid har RNA-seq gått från en teknik för att bara kvantifiera uttrycket av gener till ett kraftfullt verktyg för att upptäcka nya transkript (genom de novo transkriptomuppsättning), karakterisera alternativa splicingvarianter eller nya celltyper (genom sekvensering av RNA från en enskild cell). Att utnyttja RNA-seq för dagliga diagnostiska aktiviteter är inte längre en dröm utan en konsoliderad verklighet.
Och även om det finns etablerade bästa metoder är det inte lätt att hantera RNA-seq-data. Före sekvensering är det viktigt att noggrant planera biblioteksberedningen för att minimera bias i nedströmsanalysen. Budgetoptimering är en annan viktig faktor. Sekvensering av flera prover ökar den statistiska styrkan och minskar oönskade bieffekter på grund av brus och variabilitet. Fler prover innebär dock högre kostnader. Multiplexering har visat sig vara ett effektivt verktyg för att begränsa budgeten utan att offra antalet prover. DNA-streckkodning gör det möjligt att kombinera upp till 96 prover i en enda linje, vilket innebär att man byter ett lägre sekvenseringsdjup mot ett större antal sekvenserade prover. Nackdelen med denna teknik är den ökade bördan av dataanalys för att uppnå samma noggrannhet som skulle ha uppnåtts med en rikare input.
Nedströms sekvensering måste fastq-data valideras och bearbetas för att destillera råa läsningar till ett kvantitativt mått på genuttryck. Validering är på något sätt ett standardförfarande, men antalet avläsningar beror på typen av RNA (microRNA osv.) och på måltillämpningen. Vanligtvis avlägsnas adaptrar, anpassas till ett referensgenom, grupperas efter funktionell enhet (t.ex. transkript, gener, mikroRNA osv.), normaliseras och räknas. De efterföljande analyserna kan variera dramatiskt beroende på tillämpningen. I den enklaste inställningen ska den delmängd gener som är ansvarig för skillnaderna i fenotypen mellan två populationer upptäckas. I andra fall kanske man vill bygga upp ett nätverk för samexpression (eller omvänd expression) för att hitta interagerande gener eller en väg som är relaterad till en viss fenotyp. Andra tillämpningar omfattar upptäckt av okända celltyper, organisering av celltyper i homogena familjer, identifiering av nya molekyler (t.ex, nya mikroRNA, långa icke-kodande RNA osv.), eller annotering av nya varianter eller alternativ splicing.
Research Topic Organization
Detta forskningstema är uppdelat i tre huvudavsnitt: fem artiklar täcker RNA-seq-arbetsflödet, fyra artiklar diskuterar den senaste gränsen för RNA-sekvensering av enstaka cellers RNA-sekvensering, medan de sista fyra bidragen rapporterar om fallstudier, relaterade till tumörprofilering och växtvetenskap.
I den första delen försökte vi analysera RNA-seq-processen (från experimentell utformning till analys och utvinning av ny kunskap) genom att lyfta fram de viktigaste valen i de senaste arbetsflödena. Även om vi huvudsakligen har fokuserat på beräkningsaspekter tror vi att detta forskningstema kan fånga intresset hos de läsare, som är specialiserade på området biovetenskap, och som har för avsikt att bli oberoende och självständiga i analysen av sina egna data. Två artiklar i det här avsnittet beskriver nya metoder: för identifiering av differentiellt uttryckta gener och för förutsägelse av cirkRNA:s kodningsförmåga.
I det andra avsnittet presenteras en ny gren av RNA-seq-dataanalysen: sekvensering av enskilda celler (scRNA-seq). Även om det konceptuellt sett liknar sekvensering av celler i bulk, introducerar den här teknikens upplösning av enskilda celler mycket brus, vilket kräver ad hoc-analysmetoder. En stor del av det här avsnittet ägnas åt introduktion av grundläggande koncept för RNA-sekvensering i enstaka celler, från laboratorieprotokoll till de vanligaste analyserna. I synnerhet diskuteras problemen med att bedöma resultaten av kluster av celltyper och reproducerbarheten av experiment med differentiella uttryck. Slutligen avslutas detta avsnitt med en beskrivning av en ny metod för att härleda saknade räkningar på grund av dålig täckning av sekvensering.
Den sista delen av forskningstemat ägnades åt fyra fallstudier: tre gällde tumörer och en tillämpning inom växtvetenskap. Motiveringen till detta val var att visa olika typer av analyser. I det konceptuellt sett enklare fallet var målet med analysen att skapa en panel av gener som är prognostiska för uppkomsten av cancer. Därefter visas ett exempel på ett samuttrycksnätverk. Slutligen har ett exempel på interaktion mellan olika typer av RNA (långa icke-kodande, gener, mikroRNA) rapporterats, vilket visar komplexiteten hos de vägar som reglerar cellernas liv.
2.1. RNA-Seq-analys
I Reed et al. diskuteras den möjlighet som erbjuds genom Multiplexed RNA Sequencing. Studien ger en jämförelse av flera metoder med hjälp av verkliga data från odödliga humana lungepitelceller.
I Peri et al. föreslås RMTA, ett användarvänligt analysarbetsflöde. RMTA utformades för att tillhandahålla standardverktyg för förbehandling (dvs. analys av läskvalitet, filter för lågt uttryckta transkript och läskräkning för differentiell uttrycksanalys) i en skalbar och lätt att använda miljö.
I Jimenez-Jacinto et al. beskrivs en integrativ webbserver för differentiell uttrycksanalys (IDEAMEX). IDEAMEX har som grundtanke att befria icke-experter från den (ibland frustrerande) erfarenheten av att interagera med den UNIX-baserade miljön för standardiserade differentiella uttrycksanalyser.
I Gao et al. rapporteras en ny metod för identifiering av differentiellt uttryckta gener. Den viktigaste iakttagelsen i detta arbete är att den binomialfördelning som ligger till grund för majoriteten av algoritmerna för differentiella uttrycksanalyser inte kan fånga underspridningsegenskaperna hos RNA-seq-data.
I Sun och Li undersöks problemet med att förutsäga om ett givet cirkulärt RNA kan översättas eller inte. Cirkulära RNA skiljer sig från andra typer av RNA genom att de är arrangerade som ringar som förenar 3′ och 5′ ändpunkterna. Denna egenskap gör det svårt att avgöra deras översättningspotential. Manuskriptet innehåller en algoritm för att med hög känslighet identifiera den kodande förmågan hos cirkulära RNA:er.
2.2. RNA-sekvensering i enskilda celler
I Chen et al. ges en översikt över för närvarande tillgängliga protokoll för isolering av enskilda celler och tekniker för scRNA-seq. Dessutom diskuteras flera metoder för analys av scRNA-seq-data, från kvalitetskontroll till nätverksrekonstruktion.
I Krzak et al. dissekeras användningen av klusterbildning för att studera cellernas heterogenitet. Detta arbete syftar särskilt till att ge nya insikter om fördelar och nackdelar med scRNAseq-klustering och belyser öppna utmaningar.
I Mou et al. diskuteras vissa frågor som är kopplade till reproducerbarheten av studier av differentiella uttryck. Komplexiteten i denna typ av analyser ligger i bristen på RNA och i det lägre signal-brusförhållandet som följer därav. Artikeln visar för- och nackdelar med standard- och ad hoc-programvara för differentiella uttryck.
I Mongia et al. beskrivs en metod för att beräkna bortfall i data om uttryck i enskilda celler. Experiment på verkliga data visar att den föreslagna programvaran kan särskilja verklig frånvaro av läsningar från bortfallshändelser.
2.3. Fallstudier
I Yin et al. används differentiell uttrycksanalys för att identifiera en liten panel av gener som kan vara prognostiska för uppkomsten av glioblastom. Fokus i artikeln är att förbättra klassificeringen av friska/sjuka oberoende av interaktionen mellan generna.
I Zhu et al. identifieras samuttryckta gener för att bygga upp ett nätverk av interaktioner. Därefter analyseras nätverket för att välja ut navgener som är associerade med mjukdelssarkom.
I Zheng et al. studeras dynamiken i interaktionen mellan olika molekyler i lungadenokarcinom. I artikeln rapporteras om hur dysregleringen av ett långt icke-kodande RNA utlöser en sekvens av dysregleringar som orsakar cellcykelstopp.
I Tengkun et al, integreras genomik- och trascriptomikdata för att identifiera de avgörande generna som påverkar antocyaninbiosyntesen och omvandlar kvantitativa egenskaper till kvalitetsegenskaper.
Författarnas bidrag
Författarna har alla bidragit lika mycket till sammanställningen och redigeringen av forskningsämnet och till denna ledare.
Finansiering
IS stöddes av ett bidrag (DST/INT/POL/P-36/2016) från Indiens ministerium för vetenskap och teknik.
Intressekonflikter
Författarna förklarar att forskningen utfördes i avsaknad av kommersiella eller ekonomiska relationer som skulle kunna uppfattas som en potentiell intressekonflikt.