Co-Encadrement de stage entre l’INSA-Lyon Biosciences et l’équipe Bernard

Refactoriser un pipeline d’analyse quantitative de ChIP-seq calibrée et analyses de données
Nextflow
ChIP-seq
co-encadrement
Bernard Team
Authors

Pascal Bernard

Laurent Modolo

Published

July 28, 2022

Results

Aucun stagière n’a été selectionné

Co-Encadrement de stage Bio-info entre l'INSA-Lyon Biosciences et l’équipe Bernard

Refactoriser un pipeline d’analyse quantitative de ChIP-seq calibrée et analyses de données

Porteurs du project

Pascal Bernard et Laurent Modolo

Personnes

Elèves-ingénieurs de 5ème année du parcours Bioinformatique et Modélisation (BiM) du département Biosciences de l'INSA de Lyon.

Problématique biologique

Nous cherchons à comprendre comment la dynamique de la chromatine sous-tend la fixation de condensine à l’ADN et son activité de formation de boucles de chromatine. Dans ce contexte, nous avons implémenté la technique de ChIP-seq calibrée qui permet une measure semi quantitative de l’association pan-génomique d’un facteur d’intérêt, et développé un pipeline d’analyse dédié permettant de calculer base par base l’occupation normalisée dudit facteur. Pour questionner les liens entre condensine et la dynamique des nucléosomes et la transcription, nous avons généré des jeux de données de ChIP-seq calibrée portant sur condensine, les histones H2B et H3 et la RNA Pol II. Le ratio H2B/H3 calculé base par base nous renseigne sur l’intégrité structurale des nucléosomes et la RNA Pol II sur le niveau de la transcription. Nous souhaitons solliciter les étudiants 5ème année (BiM) du département Biosciences de l'INSA de Lyon pour un stage visant à améliorer le pipeline et analyser nos data avec ce pipeline 2.0. Le stage serait co-supervisé par P.B. et par L.M. pour la partie bio-info.

Objectifs

(1) Refactoriser notre pipeline d’analyse

- Refactoriser le code du pipeline nextflow existent en suivant les recommandations du consortium nf-core (DSL2)

- Réimplémenter les étapes de normalisation du pipeline existent dans un programme dédié (Python ou Rust) base par base à partir des fichiers bam ou bigwig bruts, en favorisant une utilisation parcimonieuse de la RAM.

- Ajouter une étape de Peak-calling adaptée aux données de Chip-Seq calibré. La détection de marques le long du génome suivit du test de leur enrichissement entraine un problème d’inférence post-sélection qui interfère avec le contrôle du risque de la procédure de test. Korthauer et al. ont récemment développé une procédure de test prenant en compte ce problème pour des données de méthylation (6). Il s’agira d’adapter la procédure dmrseq (6) aux données de Chip-seq calibrée.

- Ajouter une fonctionnalité permettant l’obtention d’un rapport au format texte référençant les pics identifiés, leur classement et leurs coordonnées en function des paramètres (cutoffs) utilisés.

- Ajouter une fonctionnalité pour la production de graphiques métagènes à partir d’une liste de pics.

(2) Analyses des données

L’objectif est de rechercher si des corrélations existent entre les niveaux d’occupation par condensine, par H2B/H3 et par la RNA Pol II. Pour cela il s’agira :

- De réanalyser le premier jeu de données de ChIP-seq calibrée pour s’assurer que le nouveau pipeline fourni les mêmes résultats

- D’analyser les données de ChIP-seq calibrée condensine, H2B/H3 et RNA Pol II.

- Classer les gènes par niveau d’occupation (quantiles).

- Étudier la corrélation entre le niveau des pics de condensine et de ceux des histones et de Pol II.

Données disponibles dans l’équipe

ChIP-seq calibrées avec séquençage paired-end 150 nt :

- ChIP-seq condensine (analysées avec le pipeline actuel = référence)

- ChIP-seq condensine (nouvelles données NGS issues de ChIP optisée)

- CHIP-seq H2B et H3 (pour calculer les ratios H2B/H3

- ChIP-seq RNA Pol II (S2P)

Date

Le stage se déroule du 19 septembre au 31 janvier.