Frontiers in Genetics

Editorial on the Research Topic
RNA-Seq Analysis: Methods, Applications and Challenges

Introduction

RNA-seq heeft een revolutie teweeggebracht in de aanpak van de onderzoeksgemeenschap om genexpressie te bestuderen. Deze technologie heeft de mogelijkheid geopend om het expressieniveau van alle genen in één keer te kwantificeren, waardoor ex post (in plaats van ex ante) kandidaten kunnen worden geselecteerd die voor een bepaalde studie interessant zouden kunnen zijn. De voortdurende daling van de kosten en de onafhankelijkheid van de protocollen voor de voorbereiding van de bibliotheek van de modelsoort hebben de belanghebbenden ervan overtuigd in deze technologie te investeren, door consortia op te richten die grote ziektespecifieke datasets kunnen produceren die op hun beurt het transcriptomisch onderzoek op populatieniveau hebben bevorderd. Een goed voorbeeld in deze zin is onder meer de Cancer Genome Atlas. In korte tijd is RNA-seq geëvolueerd van een technologie om louter de expressie van genen te kwantificeren tot een krachtig instrument om nieuwe transcripten te ontdekken (via de novo transcriptoom-assemblage), alternatieve splicing-varianten of nieuwe celtypes te karakteriseren (via single cell RNA-sequencing). Gebruik maken van RNA-seq voor dagelijkse diagnostische activiteiten is niet langer een droom, maar een geconsolideerde realiteit.

Hoewel er gevestigde best practices bestaan, is het beheren van RNA-seq data niet eenvoudig. Vóór sequencing, is het essentieel om zorgvuldig te plannen bibliotheek voorbereiding om downstream analyse biases te minimaliseren. Budget optimalisatie is een andere belangrijke factor. Sequencing meerdere monsters verhoogt het statistisch vermogen en vermindert ongewenste neveneffecten als gevolg van ruis en variabiliteit. Meer monsters brengt echter hogere kosten met zich mee. Multiplexing is een doeltreffend middel gebleken om het budget te beperken zonder dat dit ten koste gaat van het aantal monsters. DNA-barcoding maakt het mogelijk tot 96 monsters in één enkele lijn te combineren, waarbij een lagere sequendiepte wordt ingeruild voor een groter aantal gesequencerde monsters. Het nadeel van deze techniek is de toegenomen last van data-analyse om dezelfde nauwkeurigheid te bereiken die zou worden bereikt met een rijkere input.

Downstream sequencing, fastq-gegevens moeten worden gevalideerd en verwerkt om ruwe leest te destilleren tot een kwantitatieve maat van genexpressie. Terwijl validatie is een of andere manier een standaard procedure, lees aantal is afhankelijk van het type RNA (microRNA, enz.) en op de doeltoepassing. Gewoonlijk worden gelezen: onderworpen aan adapterverwijdering, uitgelijnd tegen een referentiegenoom, gegroepeerd per functionele eenheid (b.v. transcripten, genen, microRNA, enz.), genormaliseerd en geteld. De daaropvolgende analyses kunnen naar gelang van de toepassing sterk uiteenlopen. In het eenvoudigste geval moet de subset van genen worden ontdekt die verantwoordelijk is voor de verschillen in fenotype tussen twee populaties. In andere gevallen kan men het co-expressie (of omgekeerde expressie) netwerk willen opbouwen om interacterende genen of een pathway gerelateerd aan een bepaald fenotype te vinden. Andere toepassingen betreffen de ontdekking van onbekende celtypes, de organisatie van celtypes in homogene families, de identificatie van nieuwe moleculen (b.v, nieuwe microRNA, lange niet-coderende RNA, enz.), of de annotatie van nieuwe varianten of alternatieve splicing.

Research Topic Organization

Dit Research Topic is verdeeld in drie hoofdonderdelen: vijf artikelen hebben betrekking op de RNA-seq workflow, vier papers bespreken de meest recente grens van single cell RNA sequencing, terwijl de laatste vier bijdragen verslag doen van case studies, gerelateerd aan tumor profilering en plant science.

In het eerste deel hebben we geprobeerd om het RNA-seq proces (van experimenteel ontwerp tot analyse en extractie van nieuwe kennis) te analyseren door de belangrijkste keuzes van de state-of-the-art workflows te belichten. Hoewel we ons vooral hebben gericht op computationele aspecten, geloven we dat dit onderzoeksthema de belangstelling kan wekken van lezers die gespecialiseerd zijn in biowetenschappen en die onafhankelijk en autonoom willen worden in de analyse van hun eigen gegevens. Twee papers van deze sectie beschrijven nieuwe methoden: voor de identificatie van differentieel tot expressie komende genen en voor de voorspelling van het circRNA coderend vermogen.

De tweede sectie introduceert een recente tak van RNA-seq data-analyse: single cell sequencing (scRNA-seq). Hoewel conceptueel vergelijkbaar met sequencing cellen in bulk, de enkele cel resolutie van deze techniek introduceert veel ruis, dat ad hoc analysemethoden vereist. Een groot deel van dit hoofdstuk is gewijd aan de introductie van basisconcepten voor single cell RNA-sequencing, van laboratoriumprotocollen tot de meest gebruikelijke analyses. In het bijzonder worden de problemen besproken bij de beoordeling van de resultaten van clustering van celtypes en de reproduceerbaarheid van differentiële expressie-experimenten. Tenslotte wordt dit deel afgesloten met de beschrijving van een nieuwe methode om ontbrekende tellingen als gevolg van een slechte dekking van sequencing af te leiden.

Het laatste deel van het Research Topic was gewijd aan vier case studies: drie betreffende tumoren en één toepassing in de plantenwetenschap. Deze keuze was ingegeven door de wens verschillende soorten analyses te laten zien. In het conceptueel eenvoudiger geval was het doel van de analyse het samenstellen van een panel van genen die prognostisch zijn voor het ontstaan van kanker. Vervolgens wordt een voorbeeld van een co-expressienetwerk getoond. Tenslotte is een voorbeeld van interactie tussen verschillende soorten RNA (lange niet-coderende, genen, microRNA’s) gerapporteerd, waaruit de complexiteit blijkt van de paden die het leven van cellen regelen.

2.1. RNA-Seq Analysis

In Reed et al. wordt de mogelijkheid besproken die Multiplexed RNA Sequencing biedt. De studie biedt een vergelijking van verschillende methoden met behulp van echte gegevens van geïmmortaliseerde menselijke long epitheelcellen.

In Peri et al., RMTA, een gebruiksvriendelijke analyse workflow, wordt voorgesteld. RMTA is ontworpen om standaard pre-processing tools (d.w.z. lees kwaliteitsanalyse, filters voor laag expressie transcripten, en het tellen van lezingen voor differentiële expressie analyse) in een schaalbare en eenvoudig te implementeren omgeving.

In Jimenez-Jacinto et al., een integratieve differentiële expressie analyse web server (IDEAMEX) wordt beschreven. IDEAMEX is bedoeld om niet-deskundige gebruikers te bevrijden van de (soms frustrerende) ervaring van interactie met de UNIX-gebaseerde omgeving voor standaard differentiële expressieanalyses.

In Gao et al. wordt een nieuwe methode voor de identificatie van differentieel tot expressie komende genen gerapporteerd. De belangrijkste observatie van dit werk is dat de binomiale verdeling aan de basis van de meerderheid van de algoritmen voor differentiële expressie analyse niet in staat is om onderdispersie kenmerken van RNA-seq data te vangen.

In Sun en Li, wordt het probleem van het voorspellen of een bepaalde circulaire RNA kan worden vertaald of niet onderzocht. Circulaire RNA’s verschillen van andere soorten RNA in die zin dat ze zijn gerangschikt als ringen die 3′ en 5′ eindpunten verbinden. Dit kenmerk maakt het moeilijk om te beslissen over hun vertaalpotentieel. Het manuscript biedt een algoritme om de coderende vermogen van circRNAs te identificeren met een hoge gevoeligheid.

2.2. Single Cell RNA Sequencing

In Chen et al., een overzicht van de momenteel beschikbare single-cell isolatie protocollen en scRNA-seq technologieën wordt verstrekt. Daarnaast worden verschillende methoden voor scRNA-seq data-analyse, van kwaliteitscontrole tot netwerk reconstructie, besproken.

In Krzak et al., wordt het gebruik van clustering om heterogeniteit van cellen te bestuderen ontleed. In het bijzonder, dit werk is gericht op het verstrekken van nieuwe inzichten in de voordelen en nadelen van scRNAseq clustering, met de nadruk op open uitdagingen.

In Mou et al., een aantal kwesties in verband met de reproduceerbaarheid van differentiële expressie studies wordt gedebatteerd. De complexiteit van dit type analyses is gelegen in de schaarste van RNA’s en in de daaruit voortvloeiende lagere signaal-ruisverhouding. Het artikel toont de voor- en nadelen van standaard en ad-hoc software voor differentiële expressie.

In Mongia e.a. wordt een methode voor het toerekenen van uitval in expressiegegevens van enkele cellen beschreven. Experimenten op echte gegevens tonen aan dat de voorgestelde software in staat is om de echte afwezigheid van leest van dropout gebeurtenissen te onderscheiden.

2.3. Case Studies

In Yin et al., differentiële expressie analyse wordt gebruikt om een klein panel van genen die potentieel prognostisch voor het begin van Glioblastoma aan te wijzen. De nadruk van het artikel ligt op het verbeteren van de classificatie gezond/ziek, ongeacht de interactie tussen de genen.

In Zhu et al. worden gecoëxpresseerde genen geïdentificeerd om een netwerk van interacties op te bouwen. Vervolgens wordt het netwerk geanalyseerd om hub-genen te selecteren die geassocieerd zijn met weke delen sarcomen.

In Zheng et al., wordt de dynamiek van de interactie tussen verschillende moleculen in long adenocarcinoom bestudeerd. Het artikel rapporteert hoe de ontregeling van een lang niet-coderend RNA een opeenvolging van ontregelingen teweegbrengt, waardoor de celcyclus stilvalt.

In Tengkun et al., zijn genomics- en trascriptomics-gegevens geïntegreerd om de cruciale genen te identificeren die van invloed zijn op de biosynthese van anthocyanen, waardoor kwantitatieve eigenschappen worden omgezet in kwaliteitskenmerken.

Bijdragen van auteurs

De auteurs hebben allen in gelijke mate bijgedragen aan de samenstelling en redactie van het onderzoeksthema en aan dit redactioneel artikel.

Funding

IS werd ondersteund door een subsidie (DST/INT/POL/P-36/2016) van het Department of Science and Technology, India.

Conflict of Interest

De auteurs verklaren dat het onderzoek werd uitgevoerd in de afwezigheid van enige commerciële of financiële relaties die zouden kunnen worden opgevat als een potentieel belangenconflict.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.