Editorial om forskningstemaet
RNA-Seq-analyse: RNA-Seq-analyse: Metoder, anvendelser og udfordringer
Indledning
RNA-seq har revolutioneret forskersamfundets tilgang til at studere genekspression. Denne teknologi har nemlig åbnet mulighed for at kvantificere ekspressionsniveauet for alle gener på én gang, hvilket gør det muligt at foretage en ex post (snarere end ex ante) udvælgelse af kandidater, der kunne være interessante for en bestemt undersøgelse. Det fortsatte fald i omkostningerne og uafhængigheden af protokollerne til fremstilling af biblioteker i forhold til modelarterne har overbevist interessenterne om at investere i denne teknologi ved at skabe konsortier, der er i stand til at producere store sygdomsspecifikke datasæt, hvilket igen har fremmet transkriptomisk forskning på populationsniveau. Blandt mange andre er et godt eksempel i denne henseende The Cancer Genome Atlas. På kort tid har RNA-seq bevæget sig fra at være en teknologi til blot at kvantificere genekspressionen til et effektivt redskab til at opdage nye transkripter (via de novo transkriptom samling), karakterisere alternative splejsningvarianter eller nye celletyper (via sekventering af enkeltcellers RNA). Udnyttelse af RNA-seq til daglige diagnostiske aktiviteter er ikke længere en drøm, men en konsolideret realitet.
Selv om der findes etableret bedste praksis, er det ikke let at forvalte RNA-seq-data. Før sekventering er det vigtigt at planlægge bibliotekspræparationen omhyggeligt for at minimere downstream-analysebias. Budgetoptimering er en anden vigtig faktor. Sekventering af flere prøver øger den statistiske styrke og reducerer uønskede bivirkninger som følge af støj og variabilitet. Flere prøver indebærer imidlertid højere omkostninger. Multiplexing har vist sig at være et effektivt redskab til at begrænse budgettet uden at give afkald på antallet af prøver. DNA-stregkodning gør det muligt at kombinere op til 96 prøver i en enkelt linje og bytte en lavere sekventeringsdybde for et større antal sekventerede prøver. Ulempen ved denne teknik er den øgede byrde af dataanalyse for at opnå den samme nøjagtighed, som ville blive opnået med et rigere input.
Downstream-sekventering skal fastq-data valideres og behandles for at destillere rå læsninger til en kvantitativ måling af genekspression. Mens validering på en måde er en standardprocedure, afhænger antallet af læsninger af typen af RNA (microRNA osv.) og af målapplikationen. Normalt fjernes adaptere, tilpasses til et referencegenom, grupperes efter funktionel enhed (f.eks. transskriptioner, gener, microRNA osv.), normaliseres og tælles. De efterfølgende analyser kan variere dramatisk alt efter anvendelsen. I den enkleste situation skal den delmængde af gener, der er ansvarlig for forskellene i fænotypen mellem to populationer, findes. I andre tilfælde ønsker man måske at opbygge et netværk for samekspression (eller omvendt ekspression) med henblik på at finde interagerende gener eller en vej, der er relateret til en bestemt fænotype. Andre anvendelser omfatter opdagelse af ukendte celletyper, organisering af celletyper i homogene familier, identifikation af nye molekyler (f.eks, nye mikroRNA’er, lange ikke-kodende RNA’er osv.) eller annotering af nye varianter eller alternativ splejsning.
Forskningstemaets opbygning
Dette forskningstema er opdelt i tre hovedafsnit: fem artikler dækker RNA-seq-arbejdsgangen, fire artikler diskuterer den seneste grænse for enkeltcellers RNA-sekventering, mens de sidste fire bidrag rapporterer om casestudier, relateret til tumorprofilering og plantevidenskab.
I den første del forsøgte vi at analysere RNA-seq-processen (fra eksperimentel udformning til analyse og udtrækning af ny viden) ved at fremhæve de vigtigste valg i de nyeste arbejdsgange. Selv om vi primært har fokuseret på beregningsmæssige aspekter, mener vi, at dette forskningstema kan fange interessen hos de læsere, der er specialiseret inden for biovidenskab, og som har til hensigt at blive uafhængige og selvstændige i analysen af deres egne data. To artikler i dette afsnit beskriver nye metoder: til identifikation af differentielt udtrykte gener og til forudsigelse af cirkRNA-kodningsevnen.
Det andet afsnit introducerer en nyere gren af RNA-seq-dataanalyse: sekventering af enkeltcelledata (scRNA-seq). Selv om den konceptuelt set ligner sekventering af celler i bulk, introducerer denne tekniks enkeltcelleopløsning en masse støj, som kræver ad hoc-analysemetoder. En stor del af dette afsnit er afsat til introduktion af grundlæggende koncepter for sekventering af enkeltcellers RNA-sekventering, fra laboratorieprotokoller til de mest almindelige analyser. Især drøftes problemerne med at vurdere resultaterne af klyngecelleformer og reproducerbarheden af eksperimenter med differentiel ekspression. Endelig afsluttes dette afsnit med en beskrivelse af en ny metode til at udlede manglende tællinger som følge af dårlig dækning af sekventering.
Den sidste del af forskningstemaet var dedikeret til fire casestudier: tre vedrørende tumorer og en anvendelse inden for plantevidenskab. Begrundelsen for dette valg var, at man ville vise forskellige typer analyser. I det konceptuelt set enklere tilfælde var målet med analysen at skabe et panel af gener, der er prognostiske for udbrud af kræft. Dernæst vises et eksempel på et samekspressionsnetværk. Endelig er der givet et eksempel på interaktion mellem forskellige typer RNA (lange ikke-kodende, gener, mikroRNA’er), hvilket viser kompleksiteten af de veje, der regulerer cellernes liv.
2.1. RNA-Seq-analyse
I Reed et al. diskuteres den mulighed, som multiplexed RNA-sekventering giver. Undersøgelsen indeholder en sammenligning af flere metoder ved hjælp af reelle data fra immortaliserede humane lungeepitelceller.
I Peri et al. foreslås RMTA, en brugervenlig arbejdsgang til analyse, foreslået. RMTA blev designet til at levere standardværktøjer til forbehandling (dvs. analyse af læsekvalitet, filtre til lavt udtrykte transskriptioner og læsningstælling til differentiel ekspressionsanalyse) i et skalerbart og let at implementere miljø.
I Jimenez-Jacinto et al. beskrives en integrativ webserver til differentiel ekspressionsanalyse (IDEAMEX). IDEAMEX har til formål at frigøre ikke-ekspertbrugere fra den (undertiden frustrerende) oplevelse af at interagere med det UNIX-baserede miljø til standarddifferentielle ekspressionsanalyser.
I Gao et al. rapporteres om en ny metode til identifikation af differentielt udtrykte gener. Den vigtigste observation i dette arbejde er, at binomialfordelingen, der ligger til grund for de fleste algoritmer til differentiel ekspressionsanalyse, ikke er i stand til at fange underspredningsegenskaberne ved RNA-seq-data.
I Sun og Li undersøges problemet med at forudsige, om et givet cirkulært RNA kan oversættes eller ej. Cirkulære RNA’er adskiller sig fra andre typer RNA’er ved at være arrangeret som ringe, der forbinder 3′ og 5′ endepunkterne. Denne egenskab gør det svært at afgøre deres translationspotentiale. Manuskriptet indeholder en algoritme til identifikation af cirkRNA’ers kodningsevne med høj følsomhed.
2.2. Single Cell RNA Sequencing
I Chen et al. gives en oversigt over de i øjeblikket tilgængelige enkeltcelleisoleringsprotokoller og scRNA-seq-teknologier. Desuden diskuteres flere metoder til scRNA-seq-dataanalyse, fra kvalitetskontrol til netværksrekonstruktion.
I Krzak et al. dissekeres brugen af clustering til undersøgelse af cellers heterogenitet. Dette arbejde har især til formål at give ny indsigt i fordele og ulemper ved scRNAseq-gruppering og fremhæver åbne udfordringer.
I Mou et al. debatteres nogle spørgsmål i forbindelse med reproducerbarheden af differentielle ekspressionsundersøgelser. Kompleksiteten af denne type analyser står i sparsomheden af RNA’er og i det deraf følgende lavere signal/støjforhold. Artiklen viser fordele og ulemper ved standard- og ad hoc-software til differentiel ekspression.
I Mongia et al. beskrives en metode til at imputere bortfald i enkeltcelleekspressionsdata i detaljer. Eksperimenter på virkelige data viser, at den foreslåede software er i stand til at skelne det reelle fravær af læsninger fra dropout-hændelser.
2.3. Casestudier
I Yin et al. anvendes differentiel ekspressionsanalyse til at udpege et lille panel af gener, der potentielt kan være prognostiske for udbrud af glioblastom. Artiklen fokuserer på at forbedre klassificeringen af raske/sygdomstilstande uanset interaktionen mellem generne.
I Zhu et al. identificeres samudtrykte gener med henblik på at opbygge et netværk af interaktioner. Efterfølgende analyseres netværket for at udvælge hubgener, der er forbundet med sarkomer i blødt væv.
I Zheng et al. undersøges dynamikken i interaktionen mellem forskellige molekyler i lunge adenocarcinom. Artiklen rapporterer om, hvordan dysregulering af et langt ikke-kodende RNA udløser en sekvens af dysreguleringer, der forårsager cellecyklusstop.
I Tengkun et al, integreres genomics- og trascriptomics-data for at identificere de afgørende gener, der påvirker antocyaninbiosyntesen og omdanner kvantitative egenskaber til kvalitetsegenskaber.
Author Contributions
Forfatterne har alle bidraget ligeligt til samling og redigering af forskningsemnet og til denne redaktionelle artikel.
Funding
IS blev støttet af et tilskud (DST/INT/POL/P-36/2016) fra det indiske ministerium for videnskab og teknologi.
Interessekonflikter
Forfatterne erklærer, at forskningen blev udført uden kommercielle eller økonomiske relationer, der kunne opfattes som en potentiel interessekonflikt.