Analyse de l’intéraction entre génotype et environment

Modèles, simulation et pipeline d’analyse pour quantifier l’interaction entre Génotype et Environment à partir de données massives de RNA-seq.
RNA-seq
co-encadrement
GCLS Team
ongoing
Authors

Fabien DUVEAU

Arnaud Duvermy

Gaël Yvert

Laurent Modolo

Published

May 31, 2022

Results

A simulation package https://gitbio.ens-lyon.fr/aduvermy/counts_simulation

Modèles, simulation et pipeline d’analyse pour quantifier l’interaction entre Génotype et Environment à partir de données massives de RNA-seq.

Porteur du project

Fabien DUVEAU, équipe Yvert

Personnes

Arnaud Duvermy (ingénieur en CDD dans l’équipe Yvert), Laurent Modolo, Gaël Yvert, Fabien Duveau

Problématique biologique

Ce project s’inscrit dans un programme de recherche plus large dont le but est de comprendre les mécanismes d’évolution de la régulation d’expression des gènes. En particulier, les mutations aléatoires peuvent potentiellement contribuer à l’évolution de la régulation d’expression en modifiant la réponse transcriptionnelle face à un changement d’environnement. Notre objectif est de déterminer comment les biais mutationnels influencent l’évolution de la régulation d’expression en comparant l’effet de mutations aléatoires sur l’expression de différents gènes dans deux environnements. Pour cela, nous envisageons de profiler par RNA-seq le transcriptome de centaines de clones de levure porteurs de mutations induites après mutagenèse chimique, en condition normal et en condition de stress. A partir de ces données, nous déterminerons la fréquence et l’amplitude des interactions génotype-environnement pour chaque gène (GxE ou GEI), ce qui nous permettra ensuite de tester quelles propriétés connues des gènes sont associées au GEI.

Le but du project présenté ici est d’utiliser une approach computationnelle en amont de la collecte des données de RNA-seq afin de i) tester la faisabilité de l’approche expérimentale en évaluant la puissance statistique de détection des GEI en function de certains paramètres clés (nombre de génotypes, nombre de réplicats, profondeur de séquençage…) et ii) préparer une pipeline d’analyse à partir de données de RNA-seq similaires déjà publiées et accessibles.

Questions

Une approach de simulation et statistique sera utilisée pour répondre aux questions suivantes :

  1. Comment quantifier le degré de GEI pour un gène donné ? Quel outil utiliser pour estimer les effets du génotype (G), de l’environnement (E) et les interactions génotype-environnement (GEI) ?

Arnaud a commencé à répondre à ces questions en utilisant un jeu de données de RNA-seq public (voir ci-dessous) et en utilisant un modèle linéaire généralisé dans DESeq2 afin d’estimer les paramètres quantifiant l’effet de l’environnement (βE), du génotype (βG),et de l’interaction GEI (βGxE) ainsi que l’erreur résiduelle ε du modèle. Il a ensuite simulé des jeux de données en se basant sur ce modèle et Les valeurs simulées correspondent mal aux valeurs réelles, ce qui semble être dû à une mauvaise estimation des paramètres du modèle et à de très grandes valeurs d’erreurs résiduelles estimées. Une analyse SVA (surrogate variable analysis) n’a pas amélioré la qualité des simulations. Nous ne savons pas bien si le problème vient du jeu de données ou de l’outil utilisé (DESeq2) et nous souhaitons donc requérir l’assistance de Laurent Modolo sur ces questions.

  1. Comment certains paramètres expérimentaux peuvent affecter la détection de GEI ? Par example, quel est l’effet du nombre de réplicats biologiques, du nombre de génotypes mutants et de la profondeur de séquençage ?

Ces questions sont essentielles pour calibrer l’expérience de RNA-seq afin d’obtenir une puissance statistique suffisante dans l’analyse des données et seront abordées une fois que l’approche de simulation sera validée.

Données

Ce project étant réalisé en amont de la collecte des données de RNA-seq, des jeux de données publiés seront utilisés pour les simulations. Les critères de sélection de ces jeux de données sont : 1) Que les données soient accessibles et utilisables librement, 2) qu’il s’agisse de données de RNA-seq, 3) que les échantillons proviennent de levure S. cerevisiae, 4) que la structure des données comporte au moins deux génotypes et deux environment et 5) idéalement avec plusieurs réplicats pour chaque génotype et environment.

Le jeu de données sur lequel Arnaud a commencé à travailler depuis février est celui-ci : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE161373

Arnaud a utilisé 12 échantillons qui se répartissent en 3 génotypes x 2 environnements x 2 réplicats.

Un autre jeu de données a été identifié avec un plus grand nombre de réplicats : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135473

Ce jeu de données comporte 2 génotypes x 4 environnements x 5 réplicats.

Date

La date du début du project : Juin 2022

La date d’obtention des données : Utilisation de données publiées
La date d’obtention de l’intégralité des données : prévu courant 2023
La date souhaitée de fin du project : Juin 2023 ???

Attentes

Nous souhaiterions mettre en place un co-encadrement d’Arnaud Duvermy par l’équipe Yvert (Fabien Duveau et Gaël Yvert) et par Laurent Modolo afin de mener à bien ce project. Arnaud est en CDD dans le cadre d’un partenariat entre le CNRS et le Groupe industriel Lesaffre, qui suit avec intérêt nos avancées en en analyses RNA-seq à haut débit. Son temps de travail pour le LBMC (et donc sur ce project) est de 40%, le reste du temps étant consacré à d’autres projects Lesaffre.