Editorial pe tema de cercetare
RNA-Seq Analysis: Methods, Applications and Challenges
Introducere
RNA-seq a revoluționat abordarea comunității de cercetare în ceea ce privește studiul expresiei genice. De fapt, această tehnologie a deschis posibilitatea de a cuantifica nivelul de expresie al tuturor genelor deodată, permițând o selecție ex post (mai degrabă decât ex ante) a candidaților care ar putea fi interesanți pentru un anumit studiu. Scăderea continuă a costurilor și independența protocoalelor de pregătire a bibliotecilor față de speciile model au convins părțile interesate să investească în această tehnologie, prin crearea unor consorții capabile să producă seturi mari de date specifice unor boli care, la rândul lor, au favorizat cercetarea transcriptomică la nivel de populație. Printre multe altele, un exemplu virtuos în acest sens este The Cancer Genome Atlas. În scurt timp, RNA-seq a trecut de la o tehnologie de simpla cuantificare a expresiei genelor la un instrument puternic pentru: descoperirea de noi transcripte (prin asamblarea de novo a transcriptomului), caracterizarea variantelor de splicing alternativ sau a unor noi tipuri de celule (prin secvențierea ARN monocelulară). Folosirea RNA-seq pentru activitățile zilnice de diagnosticare nu mai este un vis, ci o realitate consolidată.
Deși există cele mai bune practici stabilite, gestionarea datelor RNA-seq nu este ușoară. Înainte de secvențiere, este esențial să se planifice cu atenție pregătirea bibliotecii pentru a minimiza prejudecățile analizei în aval. Optimizarea bugetului este un alt factor important. Secvențierea mai multor probe crește puterea statistică și reduce efectele secundare nedorite datorate zgomotului și variabilității. Cu toate acestea, mai multe probe implică costuri mai mari. Multiplexarea s-a dovedit a fi un instrument eficient pentru a limita bugetul fără a sacrifica numărul de probe. Codul de bare ADN permite combinarea a până la 96 de probe într-o singură linie, tranzacționând o adâncime de secvențiere mai mică pentru un număr mai mare de probe secvențiate. Dezavantajul acestei tehnici este sarcina crescută a analizei datelor pentru a obține aceeași precizie care ar fi obținută cu o intrare mai bogată.
În aval de secvențiere, datele fastq trebuie validate și procesate pentru a distila citirile brute într-o măsură cantitativă a expresiei genice. În timp ce validarea este cumva o procedură standard, numărul de citiri depinde de tipul de ARN (microARN, etc.) și de aplicația țintă. De obicei, citirile sunt: supuse eliminării adaptorilor, aliniate în raport cu un genom de referință, grupate pe unități funcționale (de exemplu, transcripte, gene, microARN etc.), normalizate și numărate. Analizele ulterioare pot varia foarte mult în funcție de aplicație. În cel mai simplu cadru, ar trebui să se descopere subsetul de gene responsabile de diferențele privind fenotipul dintre două populații. În alte cazuri, se poate dori să se construiască rețeaua de co-expresie (sau de expresie inversă) pentru a găsi genele care interacționează sau o cale legată de un anumit fenotip. Alte aplicații implică descoperirea unor tipuri de celule necunoscute, organizarea tipurilor de celule în familii omogene, identificarea de noi molecule (de ex, noi microARN-uri, ARN-uri lungi necodificatoare etc.), sau adnotarea de noi variante sau de splicing alternativ.
Organizarea temei de cercetare
Această temă de cercetare este împărțită în trei secțiuni principale: cinci articole acoperă fluxul de lucru ARN-seq, patru lucrări discută cea mai recentă frontieră a secvențierii ARN-ului dintr-o singură celulă, în timp ce ultimele patru contribuții raportează studii de caz, legate de profilarea tumorilor și de știința plantelor.
În prima parte, am încercat să analizăm procesul RNA-seq (de la proiectarea experimentală până la analiză și extragerea de noi cunoștințe) prin evidențierea alegerilor cheie ale fluxurilor de lucru de ultimă generație. Deși ne-am axat în principal pe aspectele computaționale, credem că această temă de cercetare poate capta interesul acelor cititori, specializați în domeniul științelor vieții, care intenționează să devină independenți și autonomi în analiza propriilor date. Două lucrări din această secțiune descriu noi metode: pentru identificarea genelor exprimate diferențiat și pentru predicția capacității de codificare a circRNA.
Cea de-a doua secțiune prezintă o ramură recentă a analizei datelor ARN-seq: secvențierea celulelor unice (scRNA-seq). Deși similar din punct de vedere conceptual cu secvențierea celulelor în vrac, rezoluția de celulă unică a acestei tehnici introduce mult zgomot, care necesită metode de analiză ad-hoc. O mare parte din această secțiune este dedicată introducerii conceptelor de bază privind secvențierea ARN monocelulară, de la protocoale de laborator la cele mai comune analize. În special, sunt discutate problemele de evaluare a rezultatelor grupării tipurilor de celule și a reproductibilității experimentelor de expresie diferențială. În cele din urmă, această secțiune se încheie cu descrierea unei noi metode de deducere a numerelor lipsă din cauza acoperirii slabe a secvențierii.
Ultima parte a temei de cercetare a fost dedicată la patru studii de caz: trei privind tumorile și o aplicație în știința plantelor. Raționamentul din spatele acestei alegeri a fost acela de a arăta diferite tipuri de analiză. În cazul cel mai simplu din punct de vedere conceptual, scopul analizei a fost de a crea un panou de gene prognostice pentru apariția cancerului. În continuare, este prezentat un exemplu de rețea de co-expresie. În cele din urmă, a fost prezentat un exemplu de interacțiune între diferite tipuri de ARN (ARN-uri lungi necodificatoare, gene, microARN-uri), arătând complexitatea căilor care reglează viața celulelor.
2.1. Analiza RNA-Seq
În Reed et al. se discută oportunitatea oferită de secvențierea multiplexată a ARN-ului. Studiul oferă o comparație a mai multor metode folosind date reale din celule epiteliale pulmonare umane imortalizate.
În Peri et al. este propus RMTA, un flux de lucru de analiză ușor de utilizat. RMTA a fost conceput pentru a oferi instrumente standard de preprocesare (de exemplu, analiza calității citirilor, filtre pentru transcripții slab exprimate și numărarea citirilor pentru analiza expresiei diferențiale) într-un mediu scalabil și ușor de implementat.
În Jimenez-Jacinto et al. este descris un server web integrativ de analiză a expresiei diferențiale (IDEAMEX). Raționamentul IDEAMEX este acela de a elibera utilizatorii neexperți de experiența (uneori frustrantă) de a interacționa cu mediul bazat pe UNIX pentru analizele standard de expresie diferențială.
În Gao et al. este raportată o nouă metodă de identificare a genelor exprimate diferențiat. Observația cheie a acestei lucrări este că distribuția binomială care stă la baza majorității algoritmilor pentru analiza expresiei diferențiale nu este capabilă să capteze caracteristicile de subdispersie ale datelor RNA-seq.
În Sun și Li, este investigată problema de a prezice dacă un anumit ARN circular poate fi tradus sau nu. ARN-urile circulare diferă de alte tipuri de ARN-uri prin faptul că sunt dispuse sub formă de inele care unesc punctele terminale 3′ și 5′. Această caracteristică face dificilă luarea unei decizii cu privire la potențialul lor de traducere. Manuscrisul oferă un algoritm pentru a identifica capacitatea de codificare a ARNcirc cu o sensibilitate ridicată.
2.2. Secvențierea ARN monocelulară
În Chen et al. se oferă o prezentare generală a protocoalelor de izolare monocelulară și a tehnologiilor scRNA-seq disponibile în prezent. În plus, sunt discutate mai multe metode de analiză a datelor scRNA-seq, de la controlul calității la reconstrucția rețelei.
În Krzak et al. este disecată utilizarea grupării pentru a studia eterogenitatea celulelor. În special, această lucrare urmărește să ofere noi perspective asupra avantajelor și dezavantajelor grupării scRNAseq, subliniind provocările deschise.
În Mou et al. sunt dezbătute unele aspecte legate de reproductibilitatea studiilor de expresie diferențială. Complexitatea acestui tip de analize stă în sărăcia de ARN-uri și în raportul semnal/zgomot mai mic care rezultă. Articolul prezintă avantajele și dezavantajele softurilor standard și ad-hoc pentru expresia diferențială.
În Mongia et al. este detaliată o metodă de imputare a abandonurilor în datele de expresie a unei singure celule. Experimentele pe date reale arată că software-ul propus este capabil să discrimineze absența reală a citirilor de evenimentele de abandon.
2.3. Studii de caz
În Yin et al. se utilizează analiza expresiei diferențiale pentru a identifica un mic panel de gene potențial prognostice pentru apariția glioblastomului. Punctul central al articolului este acela de a îmbunătăți clasificarea sănătos/bolnav indiferent de interacțiunea dintre gene.
În Zhu et al., sunt identificate genele co-exprimate pentru a construi o rețea de interacțiuni. Ulterior, rețeaua este analizată pentru a selecta genele hub asociate cu sarcoamele de țesut moale.
În Zheng et al. se studiază dinamica interacțiunii dintre diferite molecule în adenocarcinomul pulmonar. Articolul raportează modul în care dereglarea unui ARN non-codificator lung declanșează o secvență de dereglementări, provocând oprirea ciclului celular.
În Tengkun et al, datele genomice și trascriptomice sunt integrate pentru a identifica genele cruciale care afectează biosinteza antocianilor transformând trăsăturile cantitative în trăsături de calitate.
Contribuții ale autorilor
Toți autorii au contribuit în mod egal la asamblarea și editarea temei de cercetare și la acest editorial.
Finanțare
SIS a fost susținută de un grant (DST/INT/POL/P-36/2016) din partea Departamentului de Știință și Tehnologie, India.
Conflict de interese
Autorii declară că cercetarea a fost efectuată în absența oricăror relații comerciale sau financiare care ar putea fi interpretate ca un potențial conflict de interese.
.