Analyse ChIP-seq calibré

Refactoriser le code du pipeline nextflow de ChIP-seq calibré du LBMC
Nextflow
ChIP-seq
Authors

Pascal Bernard

Léonard Colin

Laurent Modolo

Published

November 9, 2022

Results

Development of the bamcalib command line tools to quickly process a pair of bams files and generate a bigwig file with the normalized coverage

The project can be found here

Development of the bigwig2bam command line tools to generate synthetic bam file from a bigwig file and the corresponding fasta file.

The project can be found here

Modification of the nf-core/chipseq pipeline to add the processing of calibrated data. If a --fasta_calib genome argument is provided, the pipeline will use bamcalib and bigwig2bam to produce normalized bigwig file and bam file that will be injected back into the rest of the pipeline.

The project can be found here

The pipeline was published https://doi.org/10.7554/eLife.89812.3

Porteur du projet

Pascal Bernard (PB)

Personnes

Pascal Bernard, Léonard Colin, Laurent Modolo

Problématique

La calibration des ChIP-seq est devenue un gold-standard. Dans ce contexte, Arnaud Duvermy, stagiaire bioinfo dans l’équipe PB, a entrepris l’implémentation d’un pipeline nexflow d’analyse de ChIP-seq calibrée durant le deuxième semestre 2020. L’utilisation du pipeline par l’équipe a révélé un problème de biais de quantification des ratios IP/INPUT causé par l’hétérogénéité de couverture du génome dans la fraction INPUT. Le pipeline a été modifié par Laurent afin de prendre en considération la variabilité des Inputs en calculant base par base les ratios entre les fractions IP normalisées et INPUT normalisées.

Les analyses menées dans l’équipe montrent que cette méthode fonctionne. Elle permet de corriger les variations de coverage dans les INPUTS et également d’analyser les séquences répétées du génome.

Cependant, la structure initiale du pipeline telle que conçue par Arnaud le rend difficile d’emploi et peu efficient, notamment à cause de fortes contraintes sur la dénomination des fichiers (lesquelles sont sources d’erreurs) et d’une utilisation très (trop) importante de l’espace disque.

Objectif

L’objectif du projet est de refactoriser le code du pipeline nextflow existant en suivant les recommandations du consortium nf-core, afin de :

1) simplifier le format des entrées du pipeline

2) réimplémenter les étapes de normalisation en favorisant une utilisation parcimonieuse de la RAM et de l’espace disque.

3) le déposer sur Nf-core afin d’en faciliter l’accès et l’emploi.

4) profiter des futurs développements du pipeline nf-core/chipseq une fois l’intégration faite

Date/durée

La date du début du projet : le plus tôt possible

Durée estimée : 3 mois à 20% du temps journalier de travail de Laurent.