Editorial on the Research Topic
RNA-Seq Analysis: Métodos, Aplicações e Desafios
Introdução
RNA-seq revolucionou a abordagem da comunidade de pesquisa ao estudo da expressão gênica. De fato, esta tecnologia abriu a possibilidade de quantificar o nível de expressão de todos os genes ao mesmo tempo, permitindo uma seleção ex post (ao invés de ex ante) de candidatos que poderiam ser interessantes para um determinado estudo. A contínua queda nos custos e a independência dos protocolos de preparação das bibliotecas em relação às espécies modelo, convenceram os interessados a investir nesta tecnologia, criando consórcios capazes de produzir grandes conjuntos de dados específicos de doenças que, por sua vez, promoveram a investigação transcriptômica a nível populacional. Entre muitos outros, um exemplo virtuoso neste sentido é o Atlas do Genoma do Câncer. Em pouco tempo o RNA-seq passou de uma tecnologia para simplesmente quantificar a expressão de genes para uma ferramenta poderosa para: descobrir novas transcrições (através do conjunto de novas transcriptomas), caracterizar variantes alternativas de emendas ou novos tipos de células (através do sequenciamento de RNA de uma única célula). O aproveitamento do RNA-seq para atividades diagnósticas diárias não é mais um sonho, mas uma realidade consolidada.
Embora existam as melhores práticas estabelecidas, o gerenciamento dos dados do RNA-seq não é fácil. Antes do seqüenciamento, é essencial planejar cuidadosamente a preparação da biblioteca, a fim de minimizar os vieses de análise a jusante. A otimização do orçamento é outro fator importante. O sequenciamento de múltiplas amostras aumenta o poder estatístico e reduz os efeitos secundários indesejados devido ao ruído e à variabilidade. No entanto, mais amostras implicam custos mais elevados. A multiplexação tem provado ser uma ferramenta eficaz para limitar o orçamento sem sacrificar o número de amostras. O código de barras de DNA permite combinar até 96 amostras em uma única linha, negociando uma menor profundidade de sequenciamento para um maior número de amostras sequenciadas. O lado negativo desta técnica é o aumento da carga de análise de dados para alcançar a mesma precisão que seria alcançada com uma entrada mais rica.
Sequenciamento de sequenciamento, os dados fastq devem ser validados e processados para destilar leituras brutas em uma medida quantitativa da expressão gênica. Embora a validação seja de alguma forma um procedimento padrão, a contagem de leituras depende do tipo de RNA (microRNA, etc.) e da aplicação alvo. Normalmente as leituras são: sujeitas à remoção do adaptador, alinhadas contra um genoma de referência, agrupadas por unidade funcional (por exemplo, transcrições, genes, microRNA, etc.), normalizadas e contadas. As análises subsequentes podem variar drasticamente de acordo com a aplicação. No cenário mais simples, o subconjunto de genes responsáveis pelas diferenças no fenótipo entre duas populações deve ser descoberto. Em outros casos, pode-se querer construir a rede de co-expressão (ou expressão reversa) para encontrar genes que interagem ou uma via relacionada a um determinado fenótipo. Outras aplicações envolvem a descoberta de tipos celulares desconhecidos, a organização de tipos celulares em famílias homogêneas, a identificação de novas moléculas (por exemplo novo microRNA, RNA longo não codificado, etc.), ou a anotação de novas variantes ou emendas alternativas.
Organização do Tópico de Pesquisa
Este Tópico de Pesquisa é dividido em três seções principais: cinco artigos cobrem o fluxo de trabalho do RNA-seq RNA, quatro artigos discutem a fronteira mais recente do seqüenciamento do RNA de uma única célula, enquanto as últimas quatro contribuições relatam estudos de caso, relacionados ao perfil do tumor e à ciência das plantas.
Na primeira parte, tentamos analisar o processo de seqüenciamento do RNA (desde o desenho experimental até a análise e extração de novos conhecimentos), destacando as escolhas-chave dos fluxos de trabalho de última geração. Embora nos tenhamos concentrado principalmente nos aspectos computacionais, acreditamos que este Tópico de Pesquisa pode captar o interesse dos leitores, especializados no campo das ciências da vida, que pretendem tornar-se independentes e autônomos na análise dos seus próprios dados. Dois artigos desta seção descrevem novos métodos: para a identificação de genes expressos diferencialmente e para a previsão da capacidade de codificação do RNA circulante.
A segunda seção introduz um ramo recente da análise de dados do RNA-seq: seqüenciamento de células únicas (scRNA-seq). Embora conceitualmente semelhante ao seqüenciamento de células em bloco, a resolução de célula única desta técnica introduz muito ruído, o que requer métodos de análise ad hoc. Grande parte desta seção é dedicada à introdução de conceitos básicos de seqüenciamento de RNA de célula única, desde protocolos de laboratório até as análises mais comuns. Em particular, são discutidos os problemas de avaliação dos resultados da agregação de tipos de células e a reprodutibilidade dos experimentos de expressão diferencial. Finalmente, esta seção conclui com a descrição de um novo método para inferir contagens ausentes devido à fraca cobertura do sequenciamento.
A última parte do tópico de pesquisa foi dedicada a quatro estudos de caso: três relativos a tumores e uma aplicação em ciência vegetal. A lógica por detrás desta escolha foi a de mostrar diferentes tipos de análise. No caso conceitualmente mais simples, o objetivo da análise foi criar um painel de prognóstico genético do início do câncer. A seguir, é mostrado um exemplo de uma rede de co-expressão. Finalmente, um exemplo de interação entre diferentes tipos de RNA (longo não codificado, genes, microRNAs) foi relatado, mostrando a complexidade dos caminhos que regulam a vida das células.
2.1. Análise RNA-Seq
Em Reed et al., a oportunidade oferecida pelo Multiplexed RNA Sequencing é discutida. O estudo fornece uma comparação de vários métodos usando dados reais de células epiteliais pulmonares humanas imortalizadas.
Em Peri et al., RMTA, um fluxo de trabalho de análise de fácil utilização, é proposto. O RMTA foi projetado para fornecer ferramentas padrão de pré-processamento (ou seja, análise de qualidade de leitura, filtros para transcrições de baixa expressão e contagem de leitura para análise de expressão diferencial) em um ambiente escalável e fácil de implementar.
Em Jimenez-Jacinto et al., um servidor web de análise de expressão diferencial integrativa (IDEAMEX) é descrito. A lógica da IDEAMEX é a de liberar usuários não experientes da experiência (às vezes frustrante) de interagir com o ambiente UNIX para análises de expressões diferenciais padrão.
Em Gao et al., um novo método para a identificação de genes expressos diferentemente é relatado. A observação chave deste trabalho é que a distribuição binomial na base da maioria dos algoritmos para análise de expressões diferenciais é incapaz de capturar características de sub-dispersão de dados de RNA-seq.
Em Sun e Li, o problema de prever se um determinado RNA circular pode ser traduzido ou não é investigado. Os RNA circulares diferem dos outros tipos de RNA na medida em que estão dispostos como anéis unindo 3′ e 5′ endpoints. Esta característica torna difícil decidir sobre o seu potencial de tradução. O manuscrito fornece um algoritmo para identificar a capacidade de codificação dos RNA circulares com alta sensibilidade.
2.2. Sequenciamento de RNA de célula única
Em Chen et al., uma visão geral dos protocolos de isolamento de célula única e tecnologias scRNA-seq atualmente disponíveis é fornecida. Além disso, vários métodos para análise de dados scRNA-seq, do controle de qualidade à reconstrução da rede, são discutidos.
Em Krzak et al., o uso de clustering para estudar a heterogeneidade das células é dissecado. Em particular, este trabalho tem como objetivo fornecer novos insights sobre as vantagens e desvantagens do clustering scRNAseq, destacando os desafios abertos.
Em Mou et al., algumas questões ligadas à reprodutibilidade dos estudos de expressão diferencial são debatidas. A complexidade deste tipo de análises está na escassez de RNAs e na consequente menor relação sinal/ruído. O artigo mostra os prós e contras de softwares padrão e ad-hoc para expressão diferencial.
Em Mongia et al., um método de imputação de dropouts em dados de expressão de células únicas é detalhado. Experiências com dados reais mostram que o software proposto é capaz de discriminar a ausência real de leituras de eventos de abandono.
2.3. Estudos de Caso
Em Yin et al., a análise de expressão diferencial é usada para identificar um pequeno painel de genes potencialmente prognósticos para o início do Glioblastoma. O foco do artigo é o de melhorar a classificação saudável/doença independentemente da interação entre genes.
Em Zhu et al., genes co-expressos são identificados a fim de construir uma rede de interações. Em Zheng et al., a dinâmica da interação entre diferentes moléculas no adenocarcinoma pulmonar é estudada. O artigo relata como a desregulação de um RNA longo não codificante desencadeia uma seqüência de desregulações, causando a parada do ciclo celular.
Em Tengkun et al, dados genômicos e trascriptômicos são integrados a fim de identificar os genes cruciais que afetam a biossíntese da antocianina transformando traços quantitativos em traços de qualidade.
Author Contributions
Todos os autores contribuíram igualmente para a montagem e edição do tópico de pesquisa e para este editorial.
Fundamento
IS foi apoiado por uma bolsa (DST/INT/POL/P-36/2016) do Departamento de Ciência e Tecnologia, Índia.
Conflito de Interesses
Os autores declaram que a pesquisa foi conduzida na ausência de qualquer relação comercial ou financeira que pudesse ser interpretada como um potencial conflito de interesses.