Journée SIF : Reproductibilité de la recherche

  • Recherche
  • Culture scientifique
Publié le 7 avril 2021 Mis à jour le 7 avril 2021
Date(s)

le 10 mai 2021

9h15-16h00
Lieu(x)

Programme

9h15-9h30 Accueil.

  • 9h30-10h La Recherche Reproductible : C’est quoi ? Pourquoi en faire ? Comment ? Christophe Pouzat, MAP5, Université de Paris Descartes et CNRS.
  • 10h-10h30 Archiver et référencer le code source des logiciels de recherche pour la Science Ouverte et la Reproductibilité, Roberto di Cosmo, IRIF, Université Paris Diderot et INRIA.
    • Le logiciel est un pilier fondamental de la recherche scientifique moderne, et il est primordial d’archiver et de référencer correctement les code source du logiciel utilisé dans toutes les activités de recherche. Dans cette présentation, nous montrerons comment utiliser l’infrastructure Software Heritage pour archiver de façon transparente tous le code source des logiciels et comment obtenir et utiliser les identifiants intrinsèques, spécialement conçus pour le code source des logiciels, qui sont nécessaires pour référencer le code source d’une manière qui facilite la reproductibilité à long terme. Des pointeurs vers des guides détaillés seront fournis.

  • 10h30-11h La reproductibilité des calculs coûteux, Konrad Hinsen, Centre de Biophysique Moléculaire, CNRS Orléans.
    • Comment assurer ou vérifier la reproductibilité d’un calcul qui occupe un centre de calcul pendant trois semaines ? Comment faire si des contraintes techniques nous obligent à exécuter chaque étape d’un calcul sur un autre ordinateur ? Voici quelques questions auxquelles les outils standard pour la recherche reproductible n’ont pas de réponses. Je vais résumer comment le projet ActivePapers a tenté de relever ces défis, et avec quel degré de succès.

  • 11h-11h30 Reproductibilité computationnelle en sciences de la vie et workflows scientifiques : état-des lieux et retour d’expérience, Sarah Cohen-Boulakia, LRI, Université Paris-Saclay

    • Cette présentation dresse le bilan des travaux du groupe de travail ReproVirtuFlow du GDR MaDICS qui s’intéresse à la reproductibilité des analyses de données bioinformatiques. De nombreux outils et familles de solutions existent aujourd’hui pour tendre vers une meilleure reproductibilité computationnelle des résultats bioinformatiques. Nous avons testés ces outils dans le cadre de l’organisation de Reprohackathons, hackathons dont l’objectif est de reproduire un résultat publié. Nos retours d’expérience sont multiples et comportent notamment la définition de différents niveaux de reproductibilité d’une analyse et l’identification de caractéristiques clés des outils existants vis-à-vis de leur capacité à reproduire des résultats.

11h30-14h Pause déjeuner.

  • 14h-14h30 La randomisation, une solution aux difficultés de reproductibilité de mesures de performances de processeurs modernes ?, Arnaud Legrand, LIG, Université de Grenoble-Alpes
    • Lorsque l’on parle de problèmes de reproductibilité de la recherche, on met souvent en avant des problèmes de provenance, de manque contrôle du logiciel et de son environnement, de problèmes de stabilité numérique ou encore des difficultés liés à un mauvais usage des statistiques. Les aspects mesures et expériences sont souvent assez peu évoqués, peut-être car les difficultés expérimentales sont un problème ancien et déjà assez bien cerné pour un certain nombre de disciplines (physique, biologie, …). Ce n’est pas forcément le cas en informatique qui est une science relativement jeune. Je reviendrai donc sur ce point en m’intéressant aux processeurs modernes qui sont des objets complexes avec des hiérarchies de caches au comportement parfois opaque, aux stratégies de vectorisation et de réordonnancement dynamique d’instruction obscures, dont la fréquence varie au cours du temps pour s’adapter à la charge de travail et à la température du processeur, etc. Dans ces conditions, effectuer des mesures “fiables” peut vite devenir assez difficile et obtenir des comportement “similaires” entre deux machines supposées identiques, voire sur la même machine à deux périodes différentes peut être un véritable casse-tête. Il convient alors d’adopter des plans d’expériences robustes permettant de se prémunir de ces problèmes ou de les identifier. Je présenterai quelques “histoires d’horreur” et les limitations potentielles de la randomisation dans ce contexte.

  •  14h30-15h Archiver, identifier, décrire et citer le code source : le dépôt de logiciel de recherche sur l’archive ouverte HAL, Morane Gruenpeter, Software Heritage.
    • Pourquoi déposer et partager vos logiciels de recherche ?
      Nous allons découvrir 4 cas d’utilisation indispensables pour déchiffrer le dépôt logiciel et les bonnes pratiques associées à chacun:
      – Archiver le code source dans HAL et sur Software Heritage, une action nécessaire pour assurer l’accessibilité au long terme.
      – Identifier la version spécifique avec un identifiant intrinsèque, une première étape pour conquérir le de défi de la reproductibilité
      – Décrire le code source pour une meilleure compréhension du logiciel et pour permettre la découverte du logiciel sur des moteurs de recherche.
      – Citer le logiciel pour attribuer le crédit aux auteurs dans l’écosystème académique.
  • 15h-15h30 Long term reproducibility, Nicolas Rougier, INRIA Bordeaux
    • ReScience C is an open-access peer-reviewed journal that targets computational research and encourages the explicit replication of already published research, promoting new and open-source implementations in order to ensure that the original research is reproducible. We are organizing the “Ten Years Reproducibility Challenge” and invite researchers to try to run the code they’ve created for a scientific publication that was published more than ten years ago. Sounds easy? We have good reasons to think this might be more difficult than you think. And maybe the first problem to solve is to find the source code, at a time where software heritage did not yet exist. During the talk, I’ll introduce the journal and give an update on the running challenge.

  • 15h30-16h Environnements logiciels reproductibles et transparents avec GNU Guix, Ludovic Courtès, INRIA
    • La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Pourtant celle-ci se heurte souvent à la difficulté de répliquer mais aussi d’inspecter et de modifier de manière contrôlée les environnements logiciels de ces expériences. Une réponse populaire à ce problème est l’utilisation d’outils permettant de conserver les octets qui constituent l’environnement logiciel d’une expérience. À cette approche opaque, GNU Guix oppose une approche inspirée de la programmation fonctionnelle où un déploiement logiciel à partir de son code source est vu comme un « calcul » comme un autre, et où chacun de ces calculs est une fonction pure. Dans cet exposé je présenterai ces fondements et montrerai en quoi Guix est une solution utilisable aujourd’hui pour définir des environnements logiciels reproductibles bit à bit. J’aborderai les implications de cette approche sur les pratiques de publication scientifique.