Equipe Pleiade
Le calcul scientifique intensif pour mieux comprendre les patterns de biodiversité
Animateur : Alain Franc, alain.franc_at_inra.fr
Gestionnaire référente : Florence Le Pierres
Contexte et enjeux
La connaissance et préservation de la biodiversité est un enjeu crucial qui doit être présent à l’esprit lors de toute conception et réalisation d’une activité humaine. La connaissance de la diversité notamment en espèces est à la base de la compréhension de la dynamique des communautés. Or, cette diversité est mal connue, malgré plusieurs siècles d’histoire naturelle. Plusieurs « révolutions » permettent d’aborder cette connaissance avec des concepts, outils et méthodes nouveaux :
- le rapprochement entre évolution, biologie moléculaire, systématique et génétique qui permet de comprendre la diversité actuelle comme fruit d’une histoire évolutive (phylogénies, systématique moléculaire) ;
- la révolution des NGS qui permet d’avoir accès à la diversité moléculaire de communautés entières, tous organismes confondus (métabarcoding) ;
- une révolution numérique actuelle associant données massives et accès au calcul intensif, avec le développement de méthodes d’analyse issues de l’IA
Pleiade a comme enjeu de contribuer au développement des outils et méthodes numériques en métabarcoding, avec investissement dans le calcul intensif, pour une meilleure caractérisation des patterns de diversité. Pour ce faire Pleiade est une composante d’une équipe mixte Inra/Inria. (voir https://www.inria.fr/equipes/pleiade).
Objectifs et stratégie scientifique
L’activité de Pleiade s’articule globalement autour des éléments suivants :
- au sein du réseau R-Syst, favoriser les échanges et discussions autour de la notion d’espèce, comment elle se décline selon les grands groupes taxonomiques du réseau (des bactéries aux insectes) ; analyser la qualité du dictionnaire entre taxonomie à base morphologique (celle sur laquelle la systématique est fondée) et à base moléculaire (barcoding), en associant des équipes produisant et maintenant des bases de référence (bactéries, micro-algues, plantes, champignons, nématodes, insectes), en collaboration avec l’infrastructure Rare
- étudier les associations d’espèces au sein des communautés selon des déterminants de type spatial, temporel, ou environnemental (assemblage des communautés)
- en amont de cette activité, contribuer à l’évolution des outils et méthodes d’inventaires des communautés, en collaboration avec la communauté scientifique du calcul intensif pour faciliter le passage à l’échelle (coll. HiePACS, SED Inria, IDRIS, GRICAD, …), et l’unité MIAT pour l’appui sur les méthodes statistiques (statistique computationnelle)
- transférer les outils et méthodes en métabarcoding vers les équipes de recherche utilisatrices, notamment via des collaborations avec la plateforme PGTB ; les (in)valider par une comparaison avec les outils acceptés comme état de l’art actuel (outils derrière Mothur, QIIME, DADA2, le BLAST, SWARM, …) ;
- accompagner voire devancer les évolutions dans les outils rendues nécessaires par l’évolution des technologies de séquençage, comme l’émergence actuelle des techniques dites « longs reads », par une proximité et collaboration avec la plateforme PGTB de séquençage/génotypage
Un « focus » particulier est réalisé sur le traitement des données massives issues de NGS qui pose des problèmes partiellement résolus. La plupart des méthodes ont en effet été conçues alors que les jeux de données étaient de taille « accessible » (données Sanger). Le passage à l’échelle sur données issues de NGS se réalise à l’aide d’heuristiques (algorithmes gloutons, etc …). La stratégie de Pleiade quant aux méthodes et outils est double :
- aller le plus loin possible (en terme de taille des fichiers à analyser) avec des méthodes exactes et contrôlées, afin notamment d’assurer une répétabilité des traitements, et de proposer des benchmarks de comparaison avec la diversité des heuristiques disponibles. Cela requiert le recours au calcul intensif (parallélisation, distribution), qui est un des axes de développement de Pleiade ;
- relier la caractérisation de la diversité aux outils et méthodes de l’apprentissage (machine learning), notamment s’appuyer sur les outils et méthodes de l’apprentissage supervisé pour la construction d’inventaires avec bases de référence, et l’apprentissage non supervisé pour la construction d’OTUs.
La stratégie scientifique de Pleiade, qui est une petite équipe (deux chercheurs, trois ingénieurs chacun à temps partiel) est de développer un réseau puissant de collaborations suivies, notamment
- au sein de la communauté du calcul intensif, grâce à la double affiliation Inra/Inria, prolongée avec l’unité MIAT pour les statistiques computationnelles
- au sein de la communauté européenne du métabarcoding, grâce au projet COST DNAqua.net
- par une association entre les outils (enjeu de Pleiade) et les données biologiques, au sein du réseau Inra R-Syst
- avec les équipes en Guyane (IPG) quant aux questions liées à la biodiversité
Mots-clés : Metabarcoding – Ecologie des communautés – Systématique à base moléculaire - NGS – Données massives – Méthodes et algorithmes – Calcul intensif – Apprentissage supervisé et non supervisé.
Personnel
L’équipe est composée de deux chercheurs, à temps complet, et de trois ingénieurs, à temps partiel.
Permanents | Doctorants en co-encadrement |
Emilie Chancerel (IE à 20% et 80% au PCM PGTB) | Sourakhata Tirera (Institut Pasteur de Guyane, Univ. de Cayenne, co-direction (direction : Anne Lavergne, IPG)) |
Alain Franc (DR à 100% animateur) | Bonnie Bailet (SLU, Uppsala, co-direction (direction : Maria Kahlert, SLU)) |
Jean-Marc Frigerio (IR à 80%et 20% PCM informatique) | |
Simon Labarthe (CR Département MIA) | |
Franck Salin (IE à 50% et 50% PCM informatique) | |
Projets de recherche
- projet R-Syst : réseau Inra associant des équipes des départements SPE et EFPA essentiellement
- projet Microbiome : projet stratégique du labex CEBA ; collaboration avec l’Institut Pasteur de Guyane sur la caractérisation de la diversité des viromes d’animaux vecteurs de zoonose en Guyane.
- projet Malabar : projet du labex COTE : caractérisation de la diversité interspécifique des communautés de protistes du Bassin d’Arcachon ; collaboration avec l’IFREMER et la chaire ETI du labex COTE
- projet « aerobarcoding » : projet de développement du labex COTE sur l’identification, à partir de lames de capteurs du RNSA (Réseau National de Surveillance Aérobiologique), des pollens d’espèces allergènes par métabarcoding.
- projet « HPC Scalable Ecosystem » coordonné par Inria Bordeaux (Hiepacs), dont Pleiade est membre (passage à l’échelle des outils de caractérisation de la biodiversité sur des jeux de données massifs)
- projet ADT Gordon, financé par l’Inria ; consortium de quatre équipes Inria Bordeaux pour la consolidation d’une pile logicielle pour traiter de grands jeux de données en algèbre linéaire distribuée (passage à l’échelle pour le traitement de données massives)
- projet « EOSC-Pillar », projet Européen de l’EOSC ; Pleiade est impliquée dans la tâche 7.4 sur l’interopérabilité entre infrastructures, en collaboration avec Inria Bordeaux (Hiepacs, SED), l’IDRIS (CNRS, Centre National de calcul), et GRICAD (mésocentre de Grenoble)
- Projet COST DNAqua.net : réseau européen sur l’utilisation du métabarcoding pour l’évaluation de la qualité des eaux (notamment via l’indice de polluo-sensibilité à partir d’inventaires de diatomées) ; AF est co-animateur du WG4 (Data analysis and storage).