Guacamole: Intelligence artificielle pour l’étude de l’initiation de la réplication

Développement d’un modèle de ddep learning pour la prédiction de l’initiation de la réplication de l’ADN
Jost team
ongoing
ANR project
Authors

Jean-Michel Arbona

Ghislain Durif

Published

March 14, 2023

Avancement

  • Projet RepliLand financé par l’ANR
  • En attente de recrutement du ou de la postdoc

Porteur du projet

Jean-Michel Arbona de l’équipe D. Jost sera le porteur du projet.

Personnes

  • Myriam Bontonou, post doctorante travaillant sur des méthode d’explicabilitées pour le deep learning de l’équipe D. Jost.
  • Benjamin Audit du Laboratoire de Physique de l’ENS de Lyon spécialiste de la réplication.
  • Un ou une post doctorant-e qui sera recruté-e (assujetti au succès d’un projet ANR).
  • Cotée du Biocomputing-hub, Ghislain Durif pour la partie développement Deep learning.

Problématique biologique

La projet vise à étudier l’initiation de la réplication de l’ADN principalement chez l’humain, mais également chez d’autres metazoans. Bien que la réplication de l’ADN soit un processus fondamental, de nombreuse questions se posent encore vis à vis de la régulation de l’initiation. Cela est du notamment à la complexité des méthode pour l’étudier (Repli-Seq ou OK-Seq par exemple). Récemment un outils basée sur des méthode de deep-learning (Avocado) a été développé pour proposer de combler les données manquantes du projet ENCODE. En effet ENCODE a été organisé en trois échelons. Le premier échelon contient un petit nombre de lignée cellulaires mais un grande nombre d’analyses, alors que l’échelon trois comporte un grand nombre de lignées cellulaires mais peu d’analyses. Récemment J.M. Arbona a développé un outils pour extraire des profils d’initiation de la réplication chez 5 lignées cellulaires humaines. Cependant cela est possible uniquement sur ces lignée cellulaires car elles ont été analysées et par Repli-Seq et par OK-seq.

Questions

L’objectif final de Guacamole est de disposer d’un outil pouvant prédire l’initiation de la réplication chez divers organismes, et ce en ne possédant que très peu de données sur ces organismes, par exemple des profil DNaseI Hss. Pour cela nous proposons deux étapes:

  • Améliorer Avocado pour créer Guacamole, son successeur. Pour cela nous allons modifier son architecture afin le rendre plus flexible, utilisable plus facilement sur de nouveaux génomes et également sur des mutants.
  • Incorporer les données d’initiation à Guacamole pour étudier la réplication chez l’humain et d’autres metazoans.

Données

Les données utilisées seront celles de Roadmap Epigenomics (∼ 1000 profils) et les 5 profils d’initiations obtenus chez l’humain.

Date

  • date du début du projet: janvier 2024
  • date d’obtention des données: déjà disponibles
  • date d’obtention de l’intégralité des données: -
  • date souhaitée de fin du projet: janvier 2025

Attentes

Les attentes sont les suivantes: la participation de Ghislain Durif pour:

  • le co-encadrement du ou de la post-doctorant-e sur les parties apprentissages (∼ 2 heures par semaine).
  • l’aide au respect des bonnes pratiques de développement et suivi du code.