Editorial sobre el tema de investigación
Análisis de ARN-Seq: Métodos, aplicaciones y retos
Introducción
El ARN-seq ha revolucionado el enfoque de la comunidad investigadora para estudiar la expresión génica. De hecho, esta tecnología ha abierto la posibilidad de cuantificar el nivel de expresión de todos los genes a la vez, permitiendo una selección a posteriori (en lugar de ex ante) de los candidatos que podrían ser interesantes para un determinado estudio. El continuo descenso de los costes y la independencia de los protocolos de preparación de bibliotecas respecto a las especies modelo, han convencido a los interesados para invertir en esta tecnología, creando consorcios capaces de producir grandes conjuntos de datos específicos de enfermedades que, a su vez, han fomentado la investigación transcriptómica a nivel poblacional. Entre otros muchos, un ejemplo virtuoso en este sentido es el Atlas del Genoma del Cáncer. En poco tiempo, la RNA-seq ha pasado de ser una tecnología para la mera cuantificación de la expresión de los genes a una poderosa herramienta para: descubrir nuevos transcritos (a través del ensamblaje de novo del transcriptoma), caracterizar variantes de splicing alternativo o nuevos tipos de células (a través de la secuenciación del RNA unicelular). Aprovechar el ARN-seq para las actividades diarias de diagnóstico ha dejado de ser un sueño para convertirse en una realidad consolidada.
Aunque existen mejores prácticas establecidas, la gestión de los datos de ARN-seq no es fácil. Antes de la secuenciación, es esencial planificar cuidadosamente la preparación de las bibliotecas para minimizar los sesgos del análisis posterior. La optimización del presupuesto es otro factor importante. La secuenciación de múltiples muestras aumenta la potencia estadística y reduce los efectos secundarios no deseados debidos al ruido y la variabilidad. Sin embargo, un mayor número de muestras implica un mayor coste. La multiplexación ha demostrado ser una herramienta eficaz para limitar el presupuesto sin sacrificar el número de muestras. El código de barras de ADN permite combinar hasta 96 muestras en una sola línea, intercambiando una menor profundidad de secuenciación por un mayor número de muestras secuenciadas. La desventaja de esta técnica es el aumento de la carga de análisis de datos para lograr la misma precisión que se lograría con una entrada más rica.
Después de la secuenciación, los datos fastq deben ser validados y procesados para destilar las lecturas crudas en una medida cuantitativa de la expresión génica. Si bien la validación es en cierto modo un procedimiento estándar, el recuento de lecturas depende del tipo de ARN (microARN, etc.) y de la aplicación objetivo. Por lo general, las lecturas se someten a la eliminación de adaptadores, se alinean con un genoma de referencia, se agrupan por unidades funcionales (por ejemplo, transcripciones, genes, microARN, etc.), se normalizan y se cuentan. Los análisis posteriores pueden variar drásticamente según la aplicación. En el escenario más sencillo, se debe descubrir el subconjunto de genes responsables de las diferencias en el fenotipo entre dos poblaciones. En otros casos, se puede querer construir la red de coexpresión (o expresión inversa) para encontrar genes que interactúen o una vía relacionada con un determinado fenotipo. Otras aplicaciones implican el descubrimiento de tipos celulares desconocidos, la organización de tipos celulares en familias homogéneas, la identificación de nuevas moléculas (p. ej, nuevos microARN, ARN largos no codificantes, etc.), o la anotación de nuevas variantes o empalmes alternativos.
Organización del tema de investigación
Este tema de investigación está dividido en tres secciones principales: cinco artículos cubren el flujo de trabajo del ARN-seq, cuatro trabajos discuten la frontera más reciente de la secuenciación de ARN de una sola célula, mientras que las últimas cuatro contribuciones informan sobre estudios de casos, relacionados con el perfil de tumores y la ciencia de las plantas.
En la primera parte, hemos intentado analizar el proceso de ARN-seq (desde el diseño experimental hasta el análisis y la extracción de nuevos conocimientos) destacando las opciones clave de los flujos de trabajo más avanzados. Aunque nos hemos centrado principalmente en los aspectos computacionales, creemos que este Tema de Investigación puede captar el interés de aquellos lectores, especializados en el campo de las ciencias de la vida, que pretendan ser independientes y autónomos en el análisis de sus propios datos. Dos artículos de esta sección describen nuevos métodos: para la identificación de genes diferencialmente expresados y para la predicción de la capacidad de codificación de los circRNA.
La segunda sección presenta una rama reciente del análisis de datos de RNA-seq: la secuenciación de células individuales (scRNA-seq). Aunque conceptualmente es similar a la secuenciación de células en masa, la resolución de células individuales de esta técnica introduce mucho ruido, que requiere métodos de análisis ad hoc. Gran parte de esta sección está dedicada a la introducción de los conceptos básicos de la secuenciación de ARN unicelular, desde los protocolos de laboratorio hasta los análisis más comunes. En particular, se discuten los problemas de evaluación de los resultados de la agrupación de tipos de células y la reproducibilidad de los experimentos de expresión diferencial. Por último, esta sección concluye con la descripción de un nuevo método para inferir los recuentos que faltan debido a la escasa cobertura de la secuenciación.
La última parte del Tema de Investigación se dedicó a cuatro estudios de caso: tres relativos a tumores y una aplicación en la ciencia de las plantas. La justificación de esta elección fue la de mostrar diferentes tipos de análisis. En el caso conceptualmente más sencillo, el objetivo del análisis era crear un panel de genes pronóstico de la aparición del cáncer. A continuación, se muestra un ejemplo de red de coexpresión. Por último, se ha informado de un ejemplo de interacción entre diferentes tipos de ARN (no codificantes largos, genes, microARN), mostrando la complejidad de las vías que regulan la vida de las células.
2.1. Análisis de ARN-Seq
En Reed et al. se discute la oportunidad que ofrece la secuenciación de ARN multiplexada. El estudio proporciona una comparación de varios métodos utilizando datos reales de células epiteliales pulmonares humanas inmortalizadas.
En Peri et al. se propone RMTA, un flujo de trabajo de análisis fácil de usar. RMTA se diseñó para proporcionar herramientas de preprocesamiento estándar (es decir, análisis de la calidad de las lecturas, filtros para transcripciones poco expresadas y recuento de lecturas para el análisis de expresión diferencial) en un entorno escalable y fácil de implementar.
En Jiménez-Jacinto et al. se describe un servidor web de análisis de expresión diferencial integrador (IDEAMEX). La razón de ser de IDEAMEX es la de liberar a los usuarios no expertos de la experiencia (a veces frustrante) de interactuar con el entorno basado en UNIX para los análisis de expresión diferencial estándar.
En Gao et al., se informa de un nuevo método para la identificación de genes expresados diferencialmente. La observación clave de este trabajo es que la distribución binomial en la que se basan la mayoría de los algoritmos para el análisis de expresión diferencial es incapaz de capturar las características de subdispersión de los datos de RNA-seq.
En Sun y Li, se investiga el problema de predecir si un determinado ARN circular puede ser traducido o no. Los ARN circulares se diferencian de otros tipos de ARN en que se disponen como anillos que unen los extremos 3′ y 5′. Esta característica hace difícil decidir sobre su potencial de traducción. El manuscrito proporciona un algoritmo para identificar la capacidad de codificación de los circRNAs con alta sensibilidad.
2.2. Secuenciación de ARN de una sola célula
En Chen et al. se ofrece una visión general de los protocolos de aislamiento de una sola célula y de las tecnologías de scRNA-seq actualmente disponibles. Además, se discuten varios métodos para el análisis de datos de scRNA-seq, desde el control de calidad hasta la reconstrucción de redes.
En Krzak et al. se disecciona el uso del clustering para estudiar la heterogeneidad de las células. En particular, este trabajo pretende aportar nuevas ideas sobre las ventajas e inconvenientes del clustering de scRNAseq, destacando los retos abiertos.
En Mou et al. se debaten algunas cuestiones relacionadas con la reproducibilidad de los estudios de expresión diferencial. La complejidad de este tipo de análisis radica en la escasez de ARNs y en la consecuente menor relación señal/ruido. El artículo muestra los pros y los contras del software estándar y ad-hoc para la expresión diferencial.
En Mongia et al. se detalla un método para imputar los abandonos en los datos de expresión de células individuales. Los experimentos con datos reales muestran que el software propuesto es capaz de discriminar la ausencia real de lecturas de los eventos de abandono.
2.3. Estudios de caso
En Yin et al. se utiliza el análisis de expresión diferencial para señalar un pequeño panel de genes potencialmente pronósticos para la aparición del Glioblastoma. El objetivo del artículo es mejorar la clasificación de sano/enfermo independientemente de la interacción entre los genes.
En Zhu et al., se identifican los genes coexpresados para construir una red de interacciones. Posteriormente, se analiza la red para seleccionar los genes centrales asociados a los sarcomas de tejidos blandos.
En Zheng et al. se estudia la dinámica de la interacción entre diferentes moléculas en el adenocarcinoma de pulmón. El artículo informa de cómo la desregulación de un ARN no codificante largo desencadena una secuencia de desregulaciones, provocando la detención del ciclo celular.
En Tengkun et al, se integran los datos de la genómica y la trascriptómica para identificar los genes cruciales que afectan a la biosíntesis de la antocianina transformando los rasgos cuantitativos en rasgos de calidad.
Contribuciones de los autores
Todos los autores han contribuido por igual al montaje y edición del tema de investigación y a este editorial.
Financiación
El IS fue apoyado por una subvención (DST/INT/POL/P-36/2016) del Departamento de Ciencia y Tecnología, India.
Conflicto de intereses
Los autores declaran que la investigación se llevó a cabo en ausencia de cualquier relación comercial o financiera que pudiera ser interpretada como un potencial conflicto de intereses.