Editoriale sul tema della ricerca
RNA-Seq Analysis: Metodi, applicazioni e sfide
Introduzione
RNA-seq ha rivoluzionato l’approccio della comunità di ricerca allo studio dell’espressione genica. Infatti, questa tecnologia ha aperto la possibilità di quantificare il livello di espressione di tutti i geni contemporaneamente, permettendo una selezione ex post (piuttosto che ex ante) dei candidati che potrebbero essere interessanti per un certo studio. Il continuo calo dei costi e l’indipendenza dei protocolli di preparazione delle librerie dalle specie modello, hanno convinto le parti interessate a investire in questa tecnologia, creando consorzi in grado di produrre grandi dataset malattia-specifici che, a loro volta, hanno favorito la ricerca trascrittomica a livello di popolazione. Tra i tanti, un esempio virtuoso in questo senso è The Cancer Genome Atlas. In poco tempo l’RNA-seq è passato da una tecnologia per quantificare semplicemente l’espressione dei geni a un potente strumento per: scoprire nuovi trascritti (attraverso l’assemblaggio de novo del trascrittoma), caratterizzare varianti di splicing alternativo o nuovi tipi di cellule (attraverso il sequenziamento dell’RNA di una singola cellula). Sfruttare l’RNA-seq per le attività diagnostiche quotidiane non è più un sogno ma una realtà consolidata.
Anche se esistono best practices consolidate, la gestione dei dati RNA-seq non è facile. Prima del sequenziamento, è essenziale pianificare attentamente la preparazione della libreria per ridurre al minimo le distorsioni dell’analisi a valle. L’ottimizzazione del budget è un altro fattore importante. Sequenziare più campioni aumenta la potenza statistica e riduce gli effetti collaterali indesiderati dovuti al rumore e alla variabilità. Tuttavia, più campioni implicano costi più elevati. Il multiplexing ha dimostrato di essere uno strumento efficace per limitare il budget senza sacrificare il numero di campioni. La codifica a barre del DNA permette di combinare fino a 96 campioni in una singola linea, scambiando una minore profondità di sequenziamento per un maggior numero di campioni sequenziati. L’aspetto negativo di questa tecnica è l’aumento dell’onere dell’analisi dei dati per ottenere la stessa accuratezza che si otterrebbe con un input più ricco.
A valle del sequenziamento, i dati fastq devono essere validati ed elaborati per distillare le letture grezze in una misura quantitativa dell’espressione genica. Mentre la convalida è in qualche modo una procedura standard, il conteggio delle letture dipende dal tipo di RNA (microRNA, ecc.) e dall’applicazione target. Di solito le letture sono: sottoposte alla rimozione dell’adattatore, allineate con un genoma di riferimento, raggruppate per unità funzionale (ad esempio, trascrizioni, geni, microRNA, ecc.), normalizzate e contate. Le analisi successive possono variare notevolmente a seconda dell’applicazione. Nell’impostazione più semplice, si dovrebbe scoprire il sottoinsieme di geni responsabili delle differenze sul fenotipo tra due popolazioni. In altri casi, si potrebbe voler costruire la rete di co-espressione (o espressione inversa) al fine di trovare i geni interagenti o un percorso legato a un certo fenotipo. Altre applicazioni riguardano la scoperta di tipi di cellule sconosciute, l’organizzazione di tipi di cellule in famiglie omogenee, l’identificazione di nuove molecole (ad es, ), o l’annotazione di nuove varianti o splicing alternativo.
Organizzazione dell’argomento di ricerca
Questo argomento di ricerca è diviso in tre sezioni principali: cinque articoli coprono il flusso di lavoro dell’RNA-seq, quattro articoli discutono la più recente frontiera del sequenziamento dell’RNA di una singola cellula, mentre gli ultimi quattro contributi riportano dei casi di studio, relativi al profiling dei tumori e alla scienza delle piante.
Nella prima parte, abbiamo cercato di analizzare il processo di RNA-seq (dalla progettazione sperimentale all’analisi e all’estrazione di nuova conoscenza) evidenziando le scelte chiave dei flussi di lavoro allo stato dell’arte. Anche se ci siamo concentrati principalmente sugli aspetti computazionali, crediamo che questo argomento di ricerca possa catturare l’interesse di quei lettori, specializzati nel campo delle scienze della vita, che intendono diventare indipendenti e autonomi nell’analisi dei propri dati. Due articoli di questa sezione descrivono nuovi metodi: per l’identificazione di geni differenzialmente espressi e per la predizione della capacità di codifica dei circRNA.
La seconda sezione introduce una recente branca dell’analisi dei dati RNA-seq: il sequenziamento di singole cellule (scRNA-seq). Anche se concettualmente simile al sequenziamento delle cellule in massa, la risoluzione della singola cellula di questa tecnica introduce molto rumore, che richiede metodi di analisi ad hoc. Gran parte di questa sezione è dedicata all’introduzione dei concetti di base del sequenziamento di RNA a singola cellula, dai protocolli di laboratorio alle analisi più comuni. In particolare, vengono discussi i problemi di valutazione dei risultati del clustering dei tipi di cellule e la riproducibilità degli esperimenti di espressione differenziale. Infine, questa sezione si conclude con la descrizione di un nuovo metodo per dedurre i conteggi mancanti dovuti alla scarsa copertura del sequenziamento.
L’ultima parte dell’argomento di ricerca è stata dedicata a quattro casi di studio: tre riguardanti i tumori e una applicazione nella scienza delle piante. La logica di questa scelta è stata quella di mostrare diversi tipi di analisi. Nel caso concettualmente più semplice, l’obiettivo dell’analisi era quello di creare un pannello di geni prognostici dell’insorgenza del cancro. Successivamente, viene mostrato un esempio di rete di co-espressione. Infine, è stato riportato un esempio di interazione tra diversi tipi di RNA (lunghi non codificanti, geni, microRNA), mostrando la complessità dei percorsi che regolano la vita delle cellule.
2.1. Analisi RNA-Seq
In Reed et al. viene discussa l’opportunità offerta dal Multiplexed RNA Sequencing. Lo studio fornisce un confronto tra diversi metodi utilizzando dati reali da cellule epiteliali polmonari umane immortalizzate.
In Peri et al. viene proposto RMTA, un flusso di lavoro di analisi facile da usare. RMTA è stato progettato per fornire strumenti standard di pre-elaborazione (cioè, analisi della qualità di lettura, filtri per trascrizioni scarsamente espresse e conteggio delle letture per l’analisi di espressione differenziale) in un ambiente scalabile e facile da implementare.
In Jimenez-Jacinto et al., viene descritto un server web integrativo di analisi dell’espressione differenziale (IDEAMEX). La logica di IDEAMEX è quella di liberare gli utenti non esperti dall’esperienza (a volte frustrante) di interagire con l’ambiente UNIX-based per le analisi di espressione differenziale standard.
In Gao et al., viene riportato un nuovo metodo per l’identificazione dei geni differenzialmente espressi. L’osservazione chiave di questo lavoro è che la distribuzione binomiale alla base della maggior parte degli algoritmi per l’analisi dell’espressione differenziale non è in grado di catturare le caratteristiche di sottodispersione dei dati RNA-seq.
In Sun e Li, viene studiato il problema di prevedere se un dato RNA circolare può essere tradotto o meno. Gli RNA circolari differiscono da altri tipi di RNA in quanto sono disposti come anelli che uniscono gli endpoint 3′ e 5′. Questa caratteristica rende difficile decidere sul loro potenziale di traduzione. Il manoscritto fornisce un algoritmo per identificare la capacità di codifica dei circRNA con alta sensibilità.
2.2. Single Cell RNA Sequencing
In Chen et al., viene fornita una panoramica dei protocolli di isolamento delle singole cellule e delle tecnologie scRNA-seq attualmente disponibili. Inoltre, vengono discussi diversi metodi per l’analisi dei dati scRNA-seq, dal controllo di qualità alla ricostruzione della rete.
In Krzak et al., viene analizzato l’uso del clustering per studiare l’eterogeneità delle cellule. In particolare, questo lavoro mira a fornire nuove intuizioni sui vantaggi e gli svantaggi del clustering scRNAseq, evidenziando le sfide aperte.
In Mou et al., vengono discusse alcune questioni legate alla riproducibilità degli studi di espressione differenziale. La complessità di questo tipo di analisi sta nella scarsità di RNA e nel conseguente minor rapporto segnale/rumore. L’articolo mostra i pro e i contro dei software standard e ad-hoc per l’espressione differenziale.
In Mongia et al., un metodo per imputare i dropout nei dati di espressione delle singole cellule è dettagliato. Gli esperimenti su dati reali mostrano che il software proposto è in grado di discriminare la reale assenza di letture dagli eventi di dropout.
2.3. Case Studies
In Yin et al., l’analisi di espressione differenziale è usata per individuare un piccolo pannello di geni potenzialmente prognostici per l’insorgenza del glioblastoma. L’obiettivo dell’articolo è quello di migliorare la classificazione sano/malato indipendentemente dall’interazione tra i geni.
In Zhu et al., i geni co-espressi sono identificati per costruire una rete di interazioni. Successivamente, la rete viene analizzata per selezionare i geni hub associati ai sarcomi dei tessuti molli.
In Zheng et al., viene studiata la dinamica dell’interazione tra diverse molecole nell’adenocarcinoma polmonare. L’articolo riporta come la disregolazione di un RNA lungo non codificante inneschi una sequenza di disregolazioni, causando l’arresto del ciclo cellulare.
In Tengkun et al, i dati di genomica e trascrittomica sono integrati al fine di identificare i geni cruciali che influenzano la biosintesi degli antociani trasformando i tratti quantitativi in tratti qualitativi.
Contributi degli autori
Gli autori hanno tutti contribuito in egual misura all’assemblaggio e all’editing degli argomenti di ricerca e a questo editoriale.
Finanziamento
Sono stati sostenuti da una sovvenzione (DST/INT/POL/P-36/2016) del Dipartimento di Scienza e Tecnologia, India.
Conflitto di interessi
Gli autori dichiarano che la ricerca è stata condotta in assenza di qualsiasi relazione commerciale o finanziaria che possa essere interpretata come un potenziale conflitto di interessi.