Editorial zum Forschungsthema
RNA-Seq Analysis: Methods, Applications and Challenges
Introduction
RNA-seq hat den Ansatz der Forschungsgemeinschaft zur Untersuchung der Genexpression revolutioniert. In der Tat hat diese Technologie die Möglichkeit eröffnet, das Expressionsniveau aller Gene auf einmal zu quantifizieren, was eine Ex-post- (und nicht Ex-ante-) Auswahl von Kandidaten ermöglicht, die für eine bestimmte Studie interessant sein könnten. Der kontinuierliche Rückgang der Kosten und die Unabhängigkeit der Protokolle für die Bibliotheksvorbereitung von der Modellspezies haben die Beteiligten davon überzeugt, in diese Technologie zu investieren, indem sie Konsortien gebildet haben, die in der Lage sind, große krankheitsspezifische Datensätze zu erstellen, was wiederum die Transkriptomforschung auf Populationsebene gefördert hat. Ein positives Beispiel in diesem Sinne ist der Krebsgenomatlas. In kurzer Zeit hat sich RNA-seq von einer Technologie zur bloßen Quantifizierung der Genexpression zu einem leistungsstarken Instrument entwickelt, mit dem neue Transkripte (durch de novo-Transkriptom-Assemblierung) entdeckt, alternative Spleißvarianten oder neue Zelltypen (durch Einzelzell-RNA-Sequenzierung) charakterisiert werden können. Die Nutzung von RNA-seq für die tägliche Diagnostik ist nicht länger ein Traum, sondern gefestigte Realität.
Obwohl es bewährte Verfahren gibt, ist die Verwaltung von RNA-seq-Daten nicht einfach. Vor der Sequenzierung ist eine sorgfältige Planung der Bibliotheksvorbereitung unerlässlich, um Verzerrungen bei der nachgeschalteten Analyse zu minimieren. Die Optimierung des Budgets ist ein weiterer wichtiger Faktor. Die Sequenzierung mehrerer Proben erhöht die statistische Aussagekraft und verringert unerwünschte Nebeneffekte aufgrund von Rauschen und Variabilität. Mehr Proben bedeuten jedoch auch höhere Kosten. Multiplexing hat sich als wirksames Mittel erwiesen, um das Budget zu begrenzen, ohne die Anzahl der Proben zu verringern. Das DNA-Barcoding ermöglicht die Kombination von bis zu 96 Proben in einer einzigen Linie, wobei eine geringere Sequenzierungstiefe gegen eine höhere Anzahl von sequenzierten Proben eingetauscht wird. Der Nachteil dieser Technik ist der erhöhte Aufwand für die Datenanalyse, um die gleiche Genauigkeit zu erreichen, die mit einem umfangreicheren Input erzielt würde.
Nach der Sequenzierung müssen Fastq-Daten validiert und verarbeitet werden, um aus den Rohdaten ein quantitatives Maß für die Genexpression zu gewinnen. Während die Validierung eine Art Standardverfahren ist, hängt die Anzahl der Reads von der Art der RNA (microRNA usw.) und von der Zielanwendung ab. In der Regel werden die Reads: von Adaptern befreit, an einem Referenzgenom ausgerichtet, nach funktionellen Einheiten (z. B. Transkripten, Genen, microRNA usw.) gruppiert, normalisiert und gezählt. Die anschließenden Analysen können je nach Anwendung sehr unterschiedlich ausfallen. Im einfachsten Fall soll die Untergruppe der Gene ermittelt werden, die für die Unterschiede im Phänotyp zwischen zwei Populationen verantwortlich sind. In anderen Fällen möchte man vielleicht ein Koexpressionsnetzwerk (oder ein Netzwerk mit umgekehrter Expression) aufbauen, um interagierende Gene oder einen Signalweg zu finden, der mit einem bestimmten Phänotyp zusammenhängt. Andere Anwendungen betreffen die Entdeckung unbekannter Zelltypen, die Organisation von Zelltypen in homogenen Familien, die Identifizierung neuer Moleküle (z. B.,
Organisation des Forschungsthemas
Dieses Forschungsthema ist in drei Hauptabschnitte gegliedert: fünf Artikel behandeln den RNA-seq-Arbeitsablauf, vier Beiträge erörtern die neuesten Möglichkeiten der Einzelzell-RNA-Sequenzierung, während die letzten vier Beiträge über Fallstudien im Zusammenhang mit der Erstellung von Tumorprofilen und der Pflanzenkunde berichten.
Im ersten Teil haben wir versucht, den RNA-seq-Prozess (von der Versuchsplanung bis zur Analyse und Gewinnung neuer Erkenntnisse) zu analysieren, indem wir die wichtigsten Entscheidungen der modernen Arbeitsabläufe hervorgehoben haben. Obwohl wir uns hauptsächlich auf rechnerische Aspekte konzentriert haben, glauben wir, dass dieses Forschungsthema das Interesse derjenigen Leser wecken kann, die auf dem Gebiet der Biowissenschaften spezialisiert sind und die beabsichtigen, bei der Analyse ihrer eigenen Daten unabhängig und selbständig zu werden. In zwei Beiträgen dieses Abschnitts werden neue Methoden beschrieben: für die Identifizierung von unterschiedlich exprimierten Genen und für die Vorhersage der circRNA-Kodierungsfähigkeit.
Im zweiten Abschnitt wird ein neuer Zweig der RNA-seq-Datenanalyse vorgestellt: die Einzelzellsequenzierung (scRNA-seq). Obwohl sie konzeptionell mit der Sequenzierung von Zellen im Ganzen vergleichbar ist, führt die Einzelzellauflösung dieser Technik zu einem starken Rauschen, das Ad-hoc-Analysemethoden erfordert. Ein Großteil dieses Abschnitts ist der Einführung in grundlegende Konzepte der Einzelzell-RNA-Sequenzierung gewidmet, von Laborprotokollen bis hin zu den gängigsten Analysen. Insbesondere werden die Probleme bei der Bewertung der Ergebnisse von Clustern von Zelltypen und der Reproduzierbarkeit von Experimenten zur differentiellen Expression erörtert. Schließlich schließt dieser Abschnitt mit der Beschreibung einer neuen Methode zur Ableitung fehlender Zählungen aufgrund einer schlechten Abdeckung der Sequenzierung.
Der letzte Teil des Forschungsthemas war vier Fallstudien gewidmet: drei betrafen Tumore und eine Anwendung in der Pflanzenwissenschaft. Der Grund für diese Auswahl bestand darin, verschiedene Arten der Analyse zu zeigen. In dem konzeptionell einfacheren Fall bestand das Ziel der Analyse darin, ein Panel von Genen zu erstellen, die eine Prognose für das Auftreten von Krebs darstellen. Als nächstes wird ein Beispiel für ein Koexpressionsnetzwerk gezeigt. Schließlich wird ein Beispiel für die Interaktion zwischen verschiedenen RNA-Typen (lange nichtkodierende RNA, Gene, microRNAs) angeführt, das die Komplexität der Wege zeigt, die das Leben der Zellen regulieren.
2.1. RNA-Seq-Analyse
In Reed et al. werden die Möglichkeiten des Multiplexed RNA Sequencing diskutiert. Die Studie bietet einen Vergleich verschiedener Methoden anhand realer Daten von immortalisierten menschlichen Lungenepithelzellen.
In Peri et al. wird RMTA, ein benutzerfreundlicher Analyse-Workflow, vorgeschlagen. RMTA wurde entwickelt, um standardmäßige Vorverarbeitungswerkzeuge (d.h. Lesequalitätsanalyse, Filter für gering exprimierte Transkripte und Lesezählung für die differentielle Expressionsanalyse) in einer skalierbaren und leicht zu implementierenden Umgebung bereitzustellen.
In Jimenez-Jacinto et al. wird ein integrativer Webserver für die differentielle Expressionsanalyse (IDEAMEX) beschrieben. Der Grundgedanke von IDEAMEX besteht darin, dass er nicht erfahrene Benutzer von der (manchmal frustrierenden) Erfahrung der Interaktion mit der UNIX-basierten Umgebung für Standardanalysen der differentiellen Expression befreit.
In Gao et al. wird über eine neue Methode zur Identifizierung von differentiell exprimierten Genen berichtet. Die wichtigste Beobachtung dieser Arbeit ist, dass die Binomialverteilung, die den meisten Algorithmen für die differenzielle Expressionsanalyse zugrunde liegt, nicht in der Lage ist, die Unterdispersionsmerkmale von RNA-seq-Daten zu erfassen.
In Sun und Li wird das Problem der Vorhersage, ob eine bestimmte zirkuläre RNA übersetzt werden kann oder nicht, untersucht. Zirkuläre RNAs unterscheiden sich von anderen RNA-Typen dadurch, dass sie als Ringe angeordnet sind, die 3′- und 5′-Endpunkte verbinden. Diese Eigenschaft erschwert die Entscheidung über ihr Translationspotenzial. Das Manuskript stellt einen Algorithmus zur Verfügung, mit dem die Kodierungsfähigkeit von circRNAs mit hoher Sensitivität ermittelt werden kann.
2.2. Single Cell RNA Sequencing
In Chen et al. wird ein Überblick über derzeit verfügbare Einzelzell-Isolationsprotokolle und scRNA-seq Technologien gegeben. Außerdem werden verschiedene Methoden für die scRNA-seq-Datenanalyse, von der Qualitätskontrolle bis zur Netzwerkrekonstruktion, erörtert.
In Krzak et al. wird die Verwendung von Clustering zur Untersuchung der Heterogenität von Zellen untersucht. Insbesondere zielt diese Arbeit darauf ab, neue Einblicke in die Vor- und Nachteile des scRNAseq-Clustering zu geben und offene Herausforderungen hervorzuheben.
In Mou et al. werden einige Fragen im Zusammenhang mit der Reproduzierbarkeit von Studien zur differentiellen Expression erörtert. Die Komplexität dieser Art von Analysen liegt in der geringen Anzahl von RNAs und dem daraus resultierenden geringeren Signal-Rausch-Verhältnis. Der Artikel zeigt Vor- und Nachteile von Standard- und Ad-hoc-Software für die differentielle Expression auf.
In Mongia et al. wird eine Methode zur Imputation von Dropouts in Einzelzell-Expressionsdaten beschrieben. Experimente mit echten Daten zeigen, dass die vorgeschlagene Software in der Lage ist, das tatsächliche Fehlen von Reads von Dropout-Ereignissen zu unterscheiden.
2.3. Fallstudien
In Yin et al. wird die differentielle Expressionsanalyse verwendet, um eine kleine Gruppe von Genen zu identifizieren, die potenziell prognostisch für das Auftreten eines Glioblastoms sind. Der Schwerpunkt des Artikels liegt auf der Verbesserung der Klassifizierung von gesund/krank unabhängig von der Interaktion zwischen den Genen.
In Zhu et al. werden gemeinsam exprimierte Gene identifiziert, um ein Netzwerk von Interaktionen aufzubauen. Anschließend wird das Netzwerk analysiert, um Hub-Gene auszuwählen, die mit Weichteilsarkomen in Verbindung stehen.
In Zheng et al. wird die Dynamik der Interaktion zwischen verschiedenen Molekülen bei Lungenadenokarzinomen untersucht. Der Artikel berichtet darüber, wie die Dysregulation einer langen nicht-kodierenden RNA eine Reihe von Dysregulationen auslöst, die zum Stillstand des Zellzyklus führen.
In Tengkun et al, werden Genomik- und Trascriptomik-Daten integriert, um die entscheidenden Gene zu identifizieren, die die Anthocyan-Biosynthese beeinflussen und quantitative Merkmale in Qualitätsmerkmale umwandeln.
Beiträge der Autoren
Die Autoren haben alle gleichermaßen zur Zusammenstellung und Bearbeitung des Forschungsthemas und zu diesem Leitartikel beigetragen.
Finanzierung
IS wurde durch einen Zuschuss (DST/INT/POL/P-36/2016) des Ministeriums für Wissenschaft und Technologie, Indien, unterstützt.
Interessenkonflikt
Die Autoren erklären, dass die Forschung ohne jegliche kommerzielle oder finanzielle Beziehungen durchgeführt wurde, die als potenzieller Interessenkonflikt ausgelegt werden könnten.