Outil de sauvegarde incrémentielle des résultats

Développement d’un outil permettant de réaliser des sauvegardes incrémentielles du dossier results pour les projects (bio)informatique
Biocomputing Hub
ongoing
Authors

Nicolas Fontrodona

Laurent Modolo

Published

May 10, 2022

Results

The gblk project is available here:

https://gitbio.ens-lyon.fr/LBMC/hub/git_borg_linker

Porteur du project

Laurent Modolo

Personnes

Nicolas Fontrodona

Résultats

Le project suivant à abouti à un outil nommé git borg linker dont le code est disponible sur le gitbio de l’ENS. La documentation de cet outil est accessible ici.

Problématique biologique

Très souvent, au cours d’un project en bioinformatique, du code générant des résultats est écrit. Au cours du project, le code va évoluer et les résultats qu’il produit sont susceptible de varier. Les différentes versions du code sont sauvegardées à l’aide d’un VCS (Version Control System), (git)[https://git-scm.com/] au LBMC. Cependant, pouvoir sauvegarder les résultats produits par les diférentes versions de ce code est également important. En effet, si on introduit dans le code d’un project, un changement qui fait varier les résultats qu’il produit, alors il peut lors de son execution écraser des résultats produits auparavant par une version antérieure. Ces anciens résultats peuvent être générés à nouveau en revenant à la version précédente du project et en ré-executant son programme, ce qui peut prendre du temps. De plus, si l’on souhaite vérifier qu’un changement dans le code n’engendre pas de variation dans les résultats il faut sauvegarder les résultats précédent, re-executer le code du project et comparer les résultats, ce qui prend du temps et n’est pas sans risque si l’on réalise ces étapes à la main. Un outil permettant d’automatiser le versioning des résultats serait intéressant. Par ailleur, en bioinformatique les données produites peuvent avoir une taille très importante. Il est donc primordial d’éviter la duplication de fichiers (ou portions de fichier) identique entre les versions des résultats et être libre de ne conserver qu’un ensemble de version d’intérêt pour un project.

Questions

Développement d’un outil permettant le versioning du dossier results (dossier des résultats selon le guide des bonnes pratiques) des projects bioinformatique du LBMC.

Date

La date du début du project: 10 mai 2022

Attentes

  • Automatiser le versioning des résultats des projects bioinformatique.
  • Comparer facilement les différences dans résultats entre différentes versions
  • Eviter la duplication de fichiers ou de portions de fichiers identiques entre différentes versions de résultats
  • Faire en sorte que les versions des résultats soient liées aux versions du code des projects (être en measure de savoir par quelle version du code, une certaine version de résultats à été produite)
  • Utilisation du gestionnaire d’archive borg