Implémentation d’un module UMI dans le pipeline Multi-Contact 4C (MC-4C)

4C
Hi-C
Regards Team
ongoing
Authors

Franck Mortreux

Mateo Bazire

Nicolas Fontrodonas

Laurent Modolo

Published

June 4, 2024

Problématique biologique

Dans le cadre de la thèse de Mateo Bazire, nous développons une approche de multi-contact 4C (MC-4C) qui vise à cartographier les contacts chromatiniens entre le provirus HTLV-1 et le génome cellulaire hôte. L’approche MC-4C consiste à séquencer par la technologie Nanopore de long concatémères de contacts chromatiniens formés dans chaque noyau de la population cellulaire (https://doi.org/10.1038/s41596-019-0242-7). La technologie développée par le laboratoire de Wouter de Laat s’accompagne d’un pipeline fonctionnel (https://github.com/deLaatLab/mc4c_py) qui nous a déjà permis de valider nos premiers essais. Cependant, ce script est dépourvu d’un module UMI qui permettrait d’évaluer, outre la composition des contacts (i.e l’identité des fragments génomiques en contact avec le provirus), leur fréquence au sein de la population cellulaire.

Questions

L’objectif est ici d’intégrer au pipeline mc4c_py un module d’analyse des UMI. Par cette approche nous pourrons évaluer la diversité des interactions génomiques hote-virus et leur fréquence au sein de chaque clone cellulaire infecté (défini par les cellules qui partagent un provirus à un seul et même site d’intégration).

Données

Les données sont des fichiers pod5 Nanopore générés par les travaux de MB. Nous avons déjà validé une approche MC-4C, conforme au protocole publié, sur des cellules de lignée HTLV-1. Au Total, le séquençage de 5.106 reads a permis d’isoler 16229 combinaisons distinctes de contacts entre le génome hôte et le provirus. Nous avons depuis développé, à partir des mêmes primers, des séquences UMI de 18 bases (NNNYRNNNYRNNNYRNNN) comme récemment décrit (https://doi.org/10.1038/s41592-020-01041-y). Nous avons validé les QC des différentes étapes de PCR avec ces primers modifiés, ce qui nous autorise à poursuivre les essais de MC4C en intégrant les UMI.

Date

La date du début du projet : dès que possible

La date d’obtention des données : mai/juin 2024

La date d’obtention de l’intégralité des données : juin/juillet 2024

La date souhaitée de fin du projet : septembre 2024

Attentes

FM a implémenté le pipeline MC4C au PSMN. MB et FM fourniront les fichiers pod5. Nous aimerions que Nicolas et/ou Laurent aide FM à implémenter le module UMI au pipeline MC4C.