Results
Development of the bamcalib
command line tools to quickly process a pair of bams files and generate a bigwig file with the normalized coverage
The project can be found here
Development of the bigwig2bam
command line tools to generate synthetic bam file from a bigwig file and the corresponding fasta file.
The project can be found here
Modification of the nf-core/chipseq pipeline to add the processing of calibrated data. If a --fasta_calib
genome argument is provided, the pipeline will use bamcalib
and bigwig2bam
to produce normalized bigwig file and bam file that will be injected back into the rest of the pipeline.
The project can be found here
The pipeline was published https://doi.org/10.7554/eLife.89812.3
Porteur du projet
Pascal Bernard (PB)
Personnes
Pascal Bernard, Léonard Colin, Laurent Modolo
Problématique
La calibration des ChIP-seq est devenue un gold-standard. Dans ce contexte, Arnaud Duvermy, stagiaire bioinfo dans l’équipe PB, a entrepris l’implémentation d’un pipeline nexflow d’analyse de ChIP-seq calibrée durant le deuxième semestre 2020. L’utilisation du pipeline par l’équipe a révélé un problème de biais de quantification des ratios IP/INPUT causé par l’hétérogénéité de couverture du génome dans la fraction INPUT. Le pipeline a été modifié par Laurent afin de prendre en considération la variabilité des Inputs en calculant base par base les ratios entre les fractions IP normalisées et INPUT normalisées.
Les analyses menées dans l’équipe montrent que cette méthode fonctionne. Elle permet de corriger les variations de coverage dans les INPUTS et également d’analyser les séquences répétées du génome.
Cependant, la structure initiale du pipeline telle que conçue par Arnaud le rend difficile d’emploi et peu efficient, notamment à cause de fortes contraintes sur la dénomination des fichiers (lesquelles sont sources d’erreurs) et d’une utilisation très (trop) importante de l’espace disque.
Objectif
L’objectif du projet est de refactoriser le code du pipeline nextflow existant en suivant les recommandations du consortium nf-core, afin de :
1) simplifier le format des entrées du pipeline
2) réimplémenter les étapes de normalisation en favorisant une utilisation parcimonieuse de la RAM et de l’espace disque.
3) le déposer sur Nf-core afin d’en faciliter l’accès et l’emploi.
4) profiter des futurs développements du pipeline nf-core/chipseq une fois l’intégration faite
Date/durée
La date du début du projet : le plus tôt possible
Durée estimée : 3 mois à 20% du temps journalier de travail de Laurent.