Frontiers in Genetics

Editorial on the Research Topic
RNA-Seq Analysis: Methods, Applications and Challenges

Introduction

RNA-seq zrewolucjonizowała podejście społeczności badawczej do badania ekspresji genów. W rzeczywistości, technologia ta otworzyła możliwość ilościowej oceny poziomu ekspresji wszystkich genów jednocześnie, pozwalając na selekcję ex post (a nie ex ante) kandydatów, którzy mogliby być interesujący dla danego badania. Ciągły spadek kosztów i uniezależnienie protokołów przygotowania bibliotek od gatunków modelowych, przekonały zainteresowane strony do inwestowania w tę technologię, poprzez tworzenie konsorcjów zdolnych do tworzenia dużych zbiorów danych specyficznych dla danej choroby, co z kolei sprzyjało badaniom transkryptomicznym na poziomie populacyjnym. Wśród wielu innych, doskonałym przykładem w tym sensie jest Atlas Genomu Raka (Cancer Genome Atlas). W krótkim czasie RNA-seq przekształcił się z technologii służącej jedynie do ilościowego określania ekspresji genów w potężne narzędzie do: odkrywania nowych transkryptomów (poprzez tworzenie transkryptomu de novo), charakteryzowania alternatywnych wariantów splicingu lub nowych typów komórek (poprzez sekwencjonowanie RNA pojedynczych komórek). Wykorzystanie RNA-seq w codziennej działalności diagnostycznej nie jest już marzeniem, ale skonsolidowaną rzeczywistością.

Chociaż istnieją ustalone najlepsze praktyki, zarządzanie danymi RNA-seq nie jest łatwe. Przed sekwencjonowaniem konieczne jest dokładne zaplanowanie przygotowania biblioteki w celu zminimalizowania błędów analizy. Kolejnym ważnym czynnikiem jest optymalizacja budżetu. Sekwencjonowanie wielu próbek zwiększa moc statystyczną i redukuje niepożądane efekty uboczne wynikające z szumu i zmienności. Jednakże, większa liczba próbek oznacza wyższe koszty. Multipleksowanie okazało się skutecznym narzędziem pozwalającym na ograniczenie budżetu bez konieczności rezygnacji z liczby próbek. Kodowanie paskowe DNA umożliwia połączenie do 96 próbek w jedną linię, co pozwala na uzyskanie mniejszej głębokości sekwencjonowania w zamian za większą liczbę sekwencjonowanych próbek. Wadą tej techniki jest zwiększone obciążenie analizą danych w celu osiągnięcia tej samej dokładności, która zostałaby osiągnięta przy bogatszym materiale wejściowym.

Downstream sekwencjonowania, dane fastq muszą być walidowane i przetwarzane w celu destylacji surowych odczytów do ilościowej miary ekspresji genów. Podczas gdy walidacja jest w pewnym sensie standardową procedurą, liczba odczytów zależy od rodzaju RNA (mikroRNA, itp.) i od docelowego zastosowania. Zazwyczaj odczyty są poddawane: usuwaniu adapterów, dopasowywane do genomu referencyjnego, grupowane według jednostek funkcjonalnych (np. transkryptów, genów, mikroRNA, itp.), normalizowane i zliczane. Późniejsze analizy mogą się znacznie różnić w zależności od zastosowania. W najprostszym przypadku należy odkryć podzbiór genów odpowiedzialnych za różnice w fenotypie pomiędzy dwoma populacjami. W innych przypadkach, można chcieć zbudować sieć koekspresji (lub odwrotnej ekspresji) w celu znalezienia współdziałających genów lub ścieżki związanej z określonym fenotypem. Inne zastosowania obejmują odkrywanie nieznanych typów komórek, organizację typów komórek w homogenne rodziny, identyfikację nowych cząsteczek (np, nowych mikroRNA, długich niekodujących RNA, itp.), lub anotacja nowych wariantów lub alternatywnych splicingów.

Research Topic Organization

Ten Research Topic jest podzielony na trzy główne sekcje: pięć artykułów obejmuje przepływ pracy RNA-seq, cztery prace omawiają najnowszą granicę sekwencjonowania RNA pojedynczych komórek, podczas gdy ostatnie cztery prace przedstawiają studia przypadków, związane z profilowaniem nowotworów i nauką o roślinach.

W pierwszej części podjęliśmy próbę przeanalizowania procesu RNA-seq (od projektu eksperymentu do analizy i ekstrakcji nowej wiedzy) poprzez zwrócenie uwagi na kluczowe wybory w najnowocześniejszych przepływach pracy. Chociaż skupiliśmy się głównie na aspektach obliczeniowych, wierzymy, że ten Research Topic może zainteresować tych czytelników, specjalizujących się w dziedzinie nauk przyrodniczych, którzy zamierzają stać się niezależni i autonomiczni w analizie własnych danych. Dwie prace w tej sekcji opisują nowe metody: do identyfikacji genów ulegających różnej ekspresji oraz do przewidywania zdolności kodowania circRNA.

Druga sekcja przedstawia najnowszą gałąź analizy danych RNA-seq: sekwencjonowanie pojedynczych komórek (scRNA-seq). Chociaż koncepcyjnie podobna do sekwencjonowania komórek luzem, rozdzielczość pojedynczej komórki w tej technice wprowadza wiele szumu, który wymaga doraźnych metod analizy. Znaczna część tego rozdziału poświęcona jest wprowadzeniu podstawowych koncepcji sekwencjonowania RNA pojedynczych komórek, od protokołów laboratoryjnych do najczęściej stosowanych analiz. W szczególności, omówione są problemy oceny wyników grupowania typów komórek oraz odtwarzalności eksperymentów ekspresji różnicowej. Ostatnia część Research Topic została poświęcona czterem studiom przypadków: trzem dotyczącym nowotworów i jednemu zastosowaniu w nauce o roślinach. Uzasadnieniem takiego wyboru była chęć pokazania różnych typów analiz. W prostszym koncepcyjnie przypadku celem analizy było stworzenie panelu genów prognostycznych dla wystąpienia nowotworu. Następnie pokazano przykład sieci koekspresyjnej. Na koniec podano przykład interakcji pomiędzy różnymi typami RNA (długie niekodujące, geny, mikroRNA), ukazując złożoność szlaków regulujących życie komórek.

2.1. Analiza RNA-Seq

W pracy Reed i wsp. omówiono możliwości, jakie daje multipleksowane sekwencjonowanie RNA. W pracy przedstawiono porównanie kilku metod z wykorzystaniem rzeczywistych danych pochodzących z unieśmiertelnionych ludzkich komórek nabłonka płuc.

W pracy Peri i wsp. zaproponowano RMTA, przyjazny dla użytkownika tok analizy. RMTA został zaprojektowany w celu zapewnienia standardowych narzędzi wstępnego przetwarzania (tj. analizy jakości odczytów, filtrów dla transkryptów o niskiej ekspresji i liczenia odczytów dla analizy ekspresji różnicowej) w skalowalnym i łatwym do wdrożenia środowisku.

W Jimenez-Jacinto et al. opisano integracyjny serwer internetowy analizy ekspresji różnicowej (IDEAMEX). Założeniem IDEAMEX jest uwolnienie użytkowników nie będących ekspertami od (czasami frustrującego) doświadczenia interakcji z UNIX-owym środowiskiem dla standardowych analiz ekspresji różnicowej.

W Gao i in. opisano nową metodę identyfikacji genów ulegających różnej ekspresji. Kluczowym spostrzeżeniem tej pracy jest fakt, że rozkład dwumianowy, na którym opiera się większość algorytmów analizy ekspresji różnicowej, nie jest w stanie uchwycić cech niedostatecznej dyspersji danych RNA-seq.

W pracy Sun i Li badają problem przewidywania, czy dane koliste RNA może być przetłumaczone, czy nie. Koliste RNA różnią się od innych typów RNA tym, że są ułożone jako pierścienie łączące 3′ i 5′ punkty końcowe. Cecha ta utrudnia podjęcie decyzji o ich potencjale translacyjnym. W pracy przedstawiono algorytm pozwalający z dużą czułością określić zdolność kodowania circRNA.

2.2. Single Cell RNA Sequencing

W pracy Chen i wsp. przedstawiono przegląd obecnie dostępnych protokołów izolacji pojedynczych komórek i technologii scRNA-seq. Ponadto omówiono kilka metod analizy danych scRNA-seq, od kontroli jakości po rekonstrukcję sieci.

W pracy Krzak i wsp. omówiono wykorzystanie klastrowania do badania heterogeniczności komórek. W szczególności, praca ta ma na celu zapewnienie nowego wglądu w zalety i wady klastrowania scRNAseq, podkreślając otwarte wyzwania.

W Mou et al., niektóre kwestie związane z odtwarzalnością badań ekspresji różnicowej są dyskutowane. Złożoność tego typu analiz polega na niedostatecznej ilości RNA i wynikającym z tego niższym stosunku sygnału do szumu. Artykuł przedstawia wady i zalety standardowego i doraźnego oprogramowania dla ekspresji różnicowej.

W artykule Mongia i wsp. opisana jest metoda imputacji zaniechań w danych ekspresji pojedynczych komórek. Eksperymenty na rzeczywistych danych pokazują, że proponowane oprogramowanie jest w stanie odróżnić rzeczywisty brak odczytów od zdarzeń dropout.

2.3. Studia przypadków

W artykule Yin i wsp. analiza ekspresji różnicowej jest wykorzystywana do wskazania małego panelu genów potencjalnie prognostycznych dla wystąpienia Glioblastoma. W artykule skupiono się na poprawie klasyfikacji zdrowych/chorych niezależnie od interakcji między genami.

W artykule Zhu i wsp. zidentyfikowano geny ulegające współekspresji w celu zbudowania sieci interakcji. Następnie sieć jest analizowana w celu wybrania genów węzłowych związanych z mięsakami tkanek miękkich.

W artykule Zheng i wsp. badana jest dynamika interakcji pomiędzy różnymi cząsteczkami w gruczolakoraku płuc. Artykuł donosi o tym, jak dysregulacja długiego niekodującego RNA uruchamia sekwencję dysregulacji, powodując zatrzymanie cyklu komórkowego.

W Tengkun i wsp., dane genomiczne i trascriptomics są zintegrowane w celu zidentyfikowania kluczowych genów, które wpływają na biosyntezę antocyjanów, przekształcając cechy ilościowe w cechy jakościowe.

Wkład autorów

Wszyscy autorzy w równym stopniu przyczynili się do montażu i edycji tematu badawczego oraz do tej redakcji.

Funding

IS był wspierany przez grant (DST/INT/POL/P-36/2016) z Departamentu Nauki i Technologii, Indie.

Konflikt interesów

Autorzy deklarują, że badania były prowadzone przy braku jakichkolwiek komercyjnych lub finansowych relacji, które mogłyby być interpretowane jako potencjalny konflikt interesów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.