Développement d’un outil informatique capable de séparer les reads en function de barcodes utilisés

Développement d’un programme séparant les reads en function de barcodes définis par l’utilisateur pour des données single-end et paired-end et tolérant les mismatchs selon la qualité de séquençage
Ribosome profiling
RNA-seq
RMI2 Team
Authors

Emmanuel Labaronne

Laurent Modolo

Published

December 3, 2018

Result

This project lead to the development of the flexi_splitter tool available on pip and on the following url:

https://gitbio.ens-lyon.fr/LBMC/RMI2/flexi_splitter

Porteur du project

Emmanuel Labaronne

Personnes

Emmanuel Labaronne, Laurent Modolo

Problématique biologique

Nous construisons nous même nos banques pour le séquençage haut-débit d’ARN. Nous utilisons un design particulier qui nous permet d’intégrer deux barcodes différents : un pendant l’étape de rétrotranscription et le second pendant la PCR. L’intégration de ces barcodes nous permet de pouvoir mélanger plusieurs échantillons au sein d’un même run de séquençage. Lors de l’analyse du séquençage, nous pouvons donc séparer les reads en function de leur barcode pour retrouver l’échantillon d’origine. Les outils déjà disponibles pour séparer les reads en function de leur barcode ne sont pas adaptés à la construction de nos propore banques et leur utilisation devient compliquée ralentissant fortement le temps de calcul.

Questions

Le but de se project serait de développer un outil informatique capable de séparer les reads en function des deux barcodes utilisés. Le programme doit pouvoir séparer aussi bien les données issus de séquençage single-end que paired-end à partir d’un fichier de configuration donné par l’utilisateur indiquant le nom de l’échantillon et les barcodes utilisés.

Un second point optionnel mais fortement souhaité serait la gestion des mismatchs en function de la qualité du séquençage, ce qui permet de gérer au mieux les incertitudes liés au séquençage.

Données

Des données de séquençage issue de Ribosome Profiling (single end) et de RNA seq (paired-end)

Date

La date du début du project : 1/12/2018
La date souhaitée de fin du project : au plus tard mars 2020

Attentes

Aide pour l’écriture du programme ainsi que pour le développement de l’algorythme.