Frontières en génétique

Editorial sur le sujet de recherche
Analyse ARN-Seq : Méthodes, applications et défis

Introduction

L’ARN-seq a révolutionné l’approche de la communauté de recherche pour étudier l’expression des gènes. En effet, cette technologie a ouvert la possibilité de quantifier le niveau d’expression de tous les gènes à la fois, permettant une sélection ex post (plutôt qu’ex ante) des candidats qui pourraient être intéressants pour une certaine étude. La baisse continue des coûts et l’indépendance des protocoles de préparation des librairies par rapport aux espèces modèles ont convaincu les parties prenantes d’investir dans cette technologie, en créant des consortiums capables de produire de grands ensembles de données spécifiques aux maladies qui, à leur tour, ont encouragé la recherche transcriptomique au niveau de la population. Parmi beaucoup d’autres, un exemple vertueux en ce sens est l’Atlas du génome du cancer. En peu de temps, l’ARN-seq est passé d’une technologie permettant simplement de quantifier l’expression des gènes à un outil puissant permettant de découvrir de nouveaux transcrits (par l’assemblage de novo du transcriptome), de caractériser des variantes d’épissage alternatif ou de nouveaux types de cellules (par le séquençage de l’ARN d’une seule cellule). Tirer parti de l’ARN-seq pour les activités de diagnostic quotidiennes n’est plus un rêve mais une réalité consolidée.

Bien qu’il existe des bonnes pratiques établies, la gestion des données ARN-seq n’est pas facile. Avant le séquençage, il est essentiel de planifier soigneusement la préparation des bibliothèques afin de minimiser les biais d’analyse en aval. L’optimisation du budget est un autre facteur important. Le séquençage de plusieurs échantillons augmente la puissance statistique et réduit les effets secondaires indésirables dus au bruit et à la variabilité. Cependant, un plus grand nombre d’échantillons implique des coûts plus élevés. Le multiplexage s’est révélé être un outil efficace pour limiter le budget sans sacrifier le nombre d’échantillons. Le codage à barres de l’ADN permet de combiner jusqu’à 96 échantillons en une seule ligne, en échangeant une profondeur de séquençage plus faible contre un nombre plus élevé d’échantillons séquencés. L’inconvénient de cette technique est le fardeau accru de l’analyse des données pour atteindre la même précision qui serait obtenue avec une entrée plus riche.

En aval du séquençage, les données fastq doivent être validées et traitées pour distiller les lectures brutes en une mesure quantitative de l’expression génique. Si la validation est en quelque sorte une procédure standard, le nombre de lectures dépend du type d’ARN (microARN, etc.) et de l’application cible. Habituellement, les lectures sont : soumises à l’élimination des adaptateurs, alignées par rapport à un génome de référence, regroupées par unité fonctionnelle (par exemple, les transcrits, les gènes, les microARN, etc.), normalisées et comptées. Les analyses ultérieures peuvent varier considérablement en fonction de l’application. Dans le cas le plus simple, il s’agit de découvrir le sous-ensemble de gènes responsables des différences de phénotype entre deux populations. Dans d’autres cas, on peut vouloir construire le réseau de co-expression (ou d’expression inverse) afin de trouver des gènes en interaction ou une voie liée à un certain phénotype. D’autres applications concernent la découverte de types cellulaires inconnus, l’organisation de types cellulaires en familles homogènes, l’identification de nouvelles molécules (par ex, nouveau microARN, ARN non codant long, etc.), ou l’annotation de nouveaux variants ou d’épissage alternatif.

Organisation du sujet de recherche

Ce sujet de recherche est divisé en trois sections principales : cinq articles couvrent le flux de travail RNA-seq, quatre articles discutent de la frontière la plus récente du séquençage de l’ARN à cellule unique, tandis que les quatre dernières contributions rapportent des études de cas, liées au profilage des tumeurs et à la science des plantes.

Dans la première partie, nous avons tenté d’analyser le processus RNA-seq (de la conception expérimentale à l’analyse et à l’extraction de nouvelles connaissances) en mettant en évidence les choix clés des flux de travail de pointe. Bien que nous nous soyons principalement concentrés sur les aspects informatiques, nous pensons que ce thème de recherche peut susciter l’intérêt des lecteurs, spécialisés dans le domaine des sciences de la vie, qui ont l’intention de devenir indépendants et autonomes dans l’analyse de leurs propres données. Deux articles de cette section décrivent de nouvelles méthodes : pour l’identification de gènes différentiellement exprimés et pour la prédiction de la capacité de codage des circRNA.

La deuxième section présente une branche récente de l’analyse des données RNA-seq : le séquençage de cellules uniques (scRNA-seq). Bien que conceptuellement similaire au séquençage de cellules en vrac, la résolution unicellulaire de cette technique introduit beaucoup de bruit, qui nécessite des méthodes d’analyse ad hoc. Une grande partie de cette section est consacrée à l’introduction des concepts de base du séquençage de l’ARN d’une cellule unique, des protocoles de laboratoire aux analyses les plus courantes. En particulier, les problèmes d’évaluation des résultats du regroupement des types de cellules et de la reproductibilité des expériences d’expression différentielle sont abordés. Enfin, cette section se termine par la description d’une nouvelle méthode permettant d’inférer les comptes manquants dus à une mauvaise couverture du séquençage.

La dernière partie du thème de recherche était consacrée à quatre études de cas : trois concernant les tumeurs et une application en sciences végétales. La justification de ce choix était celle de montrer différents types d’analyse. Dans le cas le plus simple sur le plan conceptuel, l’objectif de l’analyse était de créer un panel de gènes pronostiques de l’apparition d’un cancer. Ensuite, un exemple de réseau de co-expression est montré. Enfin, un exemple d’interaction entre différents types d’ARN (long non-codant, gènes, microARN) a été rapporté, montrant la complexité des voies qui régulent la vie des cellules.

2.1. Analyse RNA-Seq

Dans Reed et al, l’opportunité offerte par le séquençage multiplexé de l’ARN est discutée. L’étude fournit une comparaison de plusieurs méthodes en utilisant des données réelles provenant de cellules épithéliales pulmonaires humaines immortalisées.

Dans Peri et al, RMTA, un flux de travail d’analyse convivial, est proposé. RMTA a été conçu pour fournir des outils de prétraitement standard (c’est-à-dire l’analyse de la qualité des lectures, les filtres pour les transcrits faiblement exprimés et le comptage des lectures pour l’analyse d’expression différentielle) dans un environnement évolutif et facile à déployer.

Dans Jimenez-Jacinto et al, un serveur web d’analyse d’expression différentielle intégrative (IDEAMEX) est décrit. La raison d’être d’IDEAMEX est de libérer les utilisateurs non experts de l’expérience (parfois frustrante) de l’interaction avec l’environnement basé sur UNIX pour les analyses d’expression différentielle standard.

Dans Gao et al, une nouvelle méthode pour l’identification des gènes différentiellement exprimés est rapportée. L’observation clé de ce travail est que la distribution binomiale à la base de la majorité des algorithmes d’analyse d’expression différentielle est incapable de capturer les caractéristiques de sous-dispersion des données RNA-seq.

Dans Sun et Li, le problème de prédire si un ARN circulaire donné peut être traduit ou non est étudié. Les ARN circulaires diffèrent des autres types d’ARN en ce qu’ils sont disposés en anneaux joignant les extrémités 3′ et 5′. Cette caractéristique rend difficile de décider de leur potentiel de traduction. Le manuscrit fournit un algorithme pour identifier la capacité de codage des circRNA avec une sensibilité élevée.

2.2. Séquençage de l’ARN à cellule unique

Dans Chen et al, un aperçu des protocoles d’isolement à cellule unique actuellement disponibles et des technologies scRNA-seq est fourni. En outre, plusieurs méthodes d’analyse des données scRNA-seq, du contrôle de qualité à la reconstruction de réseaux, sont discutées.

Dans Krzak et al, l’utilisation du clustering pour étudier l’hétérogénéité des cellules est disséquée. En particulier, ce travail vise à fournir de nouvelles perspectives sur les avantages et les inconvénients du clustering scRNAseq, en soulignant les défis ouverts.

Dans Mou et al., certaines questions liées à la reproductibilité des études d’expression différentielle sont débattues. La complexité de ce type d’analyses réside dans la rareté des ARN et dans le faible rapport signal/bruit qui en résulte. L’article montre les avantages et les inconvénients des logiciels standard et ad-hoc pour l’expression différentielle.

Dans Mongia et al, une méthode pour imputer les abandons dans les données d’expression de cellules uniques est détaillée. Des expériences sur des données réelles montrent que le logiciel proposé est capable de discriminer l’absence réelle de lectures des événements de dropout.

2.3. Études de cas

Dans Yin et al, l’analyse d’expression différentielle est utilisée pour repérer un petit panel de gènes potentiellement pronostiques pour l’apparition d’un glioblastome. L’article se concentre sur l’amélioration de la classification sain/malade indépendamment de l’interaction entre les gènes.

Dans Zhu et al, les gènes co-exprimés sont identifiés afin de construire un réseau d’interactions. Par la suite, le réseau est analysé pour sélectionner les gènes pivots associés aux sarcomes des tissus mous.

Dans Zheng et al, la dynamique de l’interaction entre différentes molécules dans l’adénocarcinome pulmonaire est étudiée. L’article rapporte comment la dysrégulation d’un long ARN non codant déclenche une séquence de dysrégulations, provoquant l’arrêt du cycle cellulaire.

Dans Tengkun et al, les données génomiques et trascriptomiques sont intégrées afin d’identifier les gènes cruciaux qui affectent la biosynthèse de l’anthocyane transformant les traits quantitatifs en traits de qualité.

Contributions des auteurs

Les auteurs ont tous contribué de manière égale à l’assemblage et à l’édition du sujet de recherche et à cet éditorial.

Funding

IS a été soutenu par une subvention (DST/INT/POL/P-36/2016) du ministère de la Science et de la Technologie, Inde.

Conflit d’intérêts

Les auteurs déclarent que la recherche a été menée en l’absence de toute relation commerciale ou financière qui pourrait être interprétée comme un conflit d’intérêts potentiel.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.