Julie Bourbeillon

Enseignant-chercheur en informatique

Département Statistique et informatique

Co-directrice du Département Statistique et Informatique


Unité de recherche : UMR IRHS (Institut de recherche en horticulture et semences)

Parcours

Carrière

Formation

Enseignement

Je suis responsable de l'ensemble des enseignements d'informatique sur le site d'Angers. Ceux-ci s’intègrent dans :

En complément, je suis régulièrement tutrice d'étudiants dans différents contextes (projets spécifiques d'une UC, stages, apprentissage, etc.) et je fais régulièrement parti de divers jurys du L1 au M2.

Enseignements Niveau Licence

J’ai été le principal porteur de l’intégration des compétences numériques dans le nouveau référentiel pour l’ingénieur en horticulture et paysage, compétences inspirées du référentiel PiX. Ceci m’a amenée à dégager deux grandes thématiques pour mes enseignements :

  1. Culture Générale informatique :

    • Comprendre les concepts sous-jacents à l’informatique (matériel, système d'exploitation, réseaux, contexte déontologique et juridique),

    • Gérer son environnement de travail informatique (installation, configuration, sécurisation, maintenance de son poste de travail),

    • Apprendre / conforter l’usage d’outils courants (bureautique, messagerie, publication sur internet).

  1. Informatique scientifique au service de la science de données :

    • Collecte de données (acquérir des données par différentes méthodes de mesure et d'observations, quantitatives, et qualitatives, mener une recherche d’information),

    • Gestion de données (organiser des données dans un environnement bureautique, mise en place de bases de données, élaborer un plan de gestion de données),

    • Exploitation des données (représenter un processus sous forme d’algorithme, écrire des programmes pour résoudre un problème ou automatiser une tâche, utiliser des logiciels spécialiser pour analyser des données particulières telles que des images).

Par-delà les besoins de tous scientifiques, l’informatique scientifique peut se décliner en spécificités propres à l’horticulture et au paysage : analyse de données spatiales, analyse de données issues de capteurs (séries temporelles, images), par exemple pour le phénotypage et envirotypage, bioinformatique (et en particulier données -omics), etc.

Ces deux thématiques sont abordées avec un niveau de complexité croissante au cours des années de formation. Par exemple, la gestion de données est abordée par le biais de tableurs au niveau L1 et des bases de données relationnelles en L3.

En première année du cursus post-bac, l'enseignement est centré sur l'usage des Technologies de l'Information et de la Communication, au sein de l'établissement mais aussi dans une perspective professionnelle. Le module inclut :

  • Environnement de travail informatique : Installation et configuration de logiciels courants, mise en place d’un environnement informatique « de travail », familiarisation avec des outils courants en particulier institutionnels (mail, plateforme pédagogique Moodle),

  • Travail sur les compétences numériques PiX,

  • Rédaction collective d’un wiki sur le thème de la culture générale informatique.

J'interviens aussi dans l’enseignement de « Communication » sur un travail sur la réalisation de supports de présentation et j'accompagne l'usage des outils de type traitement de texte en lien avec la rédaction de rapports de stage.

En L1, des interventions dans d'autres modules permettent d'introduire des premières notions d'informatique scientifique :

  • Découverte de la programmation par des activités d'électricité et électronique sur Arduino en lien avec l'enseignant de physique
  • Premières notions de gestion de données dans le cadre de l'Analyse de la Biodiversité du Campus avec les enseignants d'écologie

En deuxième année, le cours d'Initiation à la programmation a pour objectif de fournir aux étudiants des outils leur permettant l'automatisation de tâches de traitement de données ou la résolution numérique de problèmes pour lesquels il n'existe pas forcément de solution analytique. Ainsi, le module est centrée sur la notion de résolution de problèmes, d'un point de vue informatique. Les différentes étapes sont abordées :

  •     Introduction aux principes de l'analyse des problèmes,
  •     Bases de l'algorithmique comme méthode de résolution de problèmes,
  •     Bases d'un langage de programmation, pour exprimer les algorithmes sous une forme compréhensible par l'ordinateur,
  •     Analyse itérative des erreurs : hypothèse sur l'origine du dysfonctionnement, solutions, tests...

Des problèmes d'application sont apportés par d'autres disciplines : écologie, économie, physique, chimie, etc.

Pour les étudiants se destinant à une spécialité Horticulture, l'Unité d'Enseignement « Nutrition minérale et adaptation du matériel végétal pour l’agroécologie» inclut une expérimentation qui vise à évaluer l’effet de carences minérales sur le développement des plantes. Celle expérimentation sert de champ d’application au module « Outils numériques et statistiques pour le phénotypage ». Des capteurs (caméras, environnement physique) installés dans le module de serre permettent un suivi en continu de la culture et une première approche du phénotypage haut-débit par analyse d’image et l’introduction de notions clés de la démarche scientifique agronomique actuelle : construction de plans d’expérience, rédaction de Plan de Gestion de Données, réalisation de poster scientifique.

En troisième année, le module optionnel « Bases de données » aborde les systèmes d'information et la place des bases de données dans ces systèmes lorsqu'ils sont informatisés. Le contenu inclut :

  • Démarche d'informatisation pour l'entreprise, infrastructures et architectures possibles,

  • Principes essentiels de conception de bases de données relationnelles,

  • Bases permettant de passer d'un modèle théorique à une implémentation, avec une mise en œuvre en SQL par l’intermédiaire d’une interface PhpMyAdmin sur un serveur MariaDB.

Enseignements Niveau Master

Les enseignements de niveau Master visent à une professionnalisation des étudiants ou apportent des compétences plus spécialisées en lien avec leur domaine métier.

Je pilote un module au choix d'« Horticulture Numérique » à destination des M1 en Horticulture. L'objectif est d’apporter une initiation à la thématique de l'agriculture numérique dans sa déclinaison pour le domaine horticole et en particulier les cultures en environnement contrôlé (en serre). Cette initiation passe par un panorama des méthodes (automatisation, robotisation, etc.) mobilisées pour optimiser la production ainsi que des applications techniques déployées dans la filière. Un projet en petit groupe permet une mise en œuvre pratique pour aborder l’horticulture numérique selon une de ses méthodes (analyse de données, analyse d’image, programmation d’automate ou de robot, modélisation, etc.) et applications (gestion de l’irrigation et des intrants, PBI, surveillance des cultures, contrôle de l’environnement, de la production etc.).

Ce module vise à introduire les notions de programmation de base (variables, tests, boucles, etc.) et quelques notions de statistiques pour des biologistes. Une séquence d’exercices de programmation en R permettent d’introduire progressivement les notions nécessaires sur un jeu de données d’exemple réel qui sert de fil rouge aux séances, de la conception à l’interprétation des données : Importation de fichier, manipulation de dataframe, visualisation des données, application des méthodes statistiques de bases, structuration d’un code R, utilisation des fonctions spécifiques (apply, merge, ...).

Enseignements Niveau Doctorat

Au niveau doctoral, les enseignements proposés consistent en des enseignements d'informatique, en particulier programmation, à destination des étudiants en biologie. A l'origine destinés aux doctorants de l'ED VAAME, ils accueillent en pratique des étudiants non informaticiens de l'ensemble des Pays de Loire.

En biologie, la génération de données (séquences génétiques, protéines…) est de plus en plus rapide et importante. Leur analyse nécessite l’utilisation de ressources et d’environnements informatiques difficiles à maitriser pour les biologistes. Python est le langage de programmation le plus répandu dans le monde scientifique et parfaitement adapté pour la biologie et la bioinformatique.
Cette formation aborde progressivement la programmation, l’algorithmique et les applications biologiques. Elle s’appuie sur de nombreux exemple. Les exercices, de difficulté croissante, seront appliqués au traitement de données biologiques.

Recherche

Ces dernières années ont été marquées par deux changements majeurs dans la manière dont la recherche biologique est menée. D'une part, les techniques à haut débit ont permis d'augmenter l'échelle à laquelle les expériences sont menées et se répandent lentement du niveau moléculaire au niveau du phénotype et même de la population. D'autre part, les ensembles de données qui en résultent sont de plus en plus partagés par l'intermédiaire de dépôts publics qui hébergent des quantités de données de plus en plus importantes (par exemple, Genbank dépasse les 250 millions de séquences en décembre 2024). En raison de ce nouveau contexte, les biologistes doivent faire face aux défis des "5V" du big data: Volume, Vélocité, Variété, Valeur, Véracité. Ils sont confrontés à de vastes ensembles de données disparates qui ne sont pas connectés les uns aux autres. Or certains peuvent être similaires et il pourrait s'avérer utile de les analyser conjointement.

Cet objectif soulève plusieurs questions qui sont ciblés par mon projet de recherche.

Je réalise ces travaux au sein de l'équipe ImHorPhen de l'IRHS. Ils se sont inscrits ou s'inscrivent dans le cadre de divers projets de recherche

Thématiques de recherche

L'intégration des données biologiques, et en particulier l'intégration des données biomédicales, est un sujet de recherche majeur dans le domaine émergeant des sciences des données. L'intégration a d'abord été traitée comme étant l'intégration de sources de données. Les approches les plus avancées fournissent aux utilisateurs une vue unifiée, basée sur des mécanismes de mappage de plusieurs sources de données, par le biais de bases de données fédérées, extraient des informations de plusieurs sources et les consolident dans un entrepôt de données, tou construisent un réseau de données sémantiquement liées en utilisant des ontologies . Cette consolidation de sources implique généralement de fournir une cartographie et des transformations de données entre les sources pour faire face aux différences concernant les vocabulaires, les unités, etc. Ces approches fonctionnent pour des données partageant à peu près la même nature (une collection d'ensembles de données transcriptomiques par exemple) ou pour des « connaissances » déduites de données expérimentales. Dans ce cas, les données expérimentales peuvent être des mesures colorimétriques de 10 pommes provenant de deux arbres et la « connaissance » que « Les pommes des arbres A et B sont de couleurs différentes ». L'intégration à ce niveau de « connaissance » n'est pas suffisante et doit aussi être envisagée au niveau des données expérimentales, en tenant compte des différentes modalités expérimentales et natures de données (données transcriptomiques et traits physiologiques, par exemple). Cela implique de se concentrer sur le « V » pour « Variété » des défis liés aux big data, ce qui fait entre autres l’objet de mes travaux.

Ce problème d'exploitation de données variées se pose même à petite échelle et peut être classé en fonction du type de données utilisées : ensembles de données similaires ou hétérogènes. Les ensembles de données de types similaires sont généralement combinés par méta-analyse, mais l'intégration de données hétérogènes est actuellement un domaine de recherche actif. De plus, le plus grand nombre d'outils concerne le domaine biomédical et ceux ciblant les plantes sont rares. C'est pourquoi il est important de cibler un large éventail de types de données (données de génotypage, données transcriptomiques, composition biochimique, attributs physiques, données sensorielles, données phénotypiques) dans le domaine végétal, ce qui est un de mes objectifs.

Les ensembles de données intégrées peuvent rapidement devenir impossibles à traiter à la main simplement parce qu'ils sont trop volumineux ou trop complexes. En particulier, des outils simples tels qu'un tableur ne peuvent pas les traiter. Or, ces logiciels sont souvent utilisés par les biologistes pour avoir un premier aperçu de leurs données. Il est donc essentiel de leur fournir des moyens conviviaux d'explorer leurs données. La réduction de la taille des matrices à manipuler et la fourniture de résumés des ensembles de données concernés constituent une réponse à ce problème. La réduction du nombre de variables est une pratique statistique courante. Cependant, la réduction du nombre d'individus est rare, car les méthodes statistiques traditionnelles sont adaptées aux situations où il y a plus d'individus que de variables. Les approches de réduction que je développe consiste à regrouper les individus similaires en se basant sur des connaissances stockées dans des ontologies. Il existe de nombreuses mesures de similarité entre vecteurs de valeurs ; il existe également un grand nombre de mesures de similarité sémantique dans les ontologies. Ces approches reposent uniquement sur la topologie du graphe. Contrairement à la méthode que je développe, elles ne représentent aucune information supplémentaire dans l'ontologie pour décrire la similarité entre les concepts et calculer les similarités entre les individus. Je représente également chaque groupe par un individu archétype « résumant » son groupe.

Les ensembles de données hétérogènes résultant du processus d'intégration sont souvent trop complexes pour être facilement interprétés à l'aide de représentations tabulaires. Les représentations graphiques sont un moyen utile de résoudre ce problème. Ce domaine a fait d'énormes progrès, passant en 25 ans de représentations statiques en 2D à des affichages interactifs en 3D et même aux premières tentatives de réalité virtuelle. Cependant, les logiciels de visualisation populaires actuels présentent plusieurs limites dans la perspective de la visualisation d'ensembles de données expérimentales hétérogènes complexes : (i) ils sont tous sujets au problème de la surcharge d'informations : j'aborde ce problème avec mon approche de résumé des données afin de réduire le nombre d'éléments à afficher. (ii) Ils traitent des catégories spécifiques de données qui peuvent ne pas être appropriées dans le contexte que nous considérons. Les outils que je développe visent à être plus génériques et traiter un plus large éventail de types de données. (iii) La compatibilité des logiciels existants avec les formats d'échange standard et la connexion avec des banques de données bien établies permettent de récupérer divers ensembles de données. Cependant, l'introduction de jeux de données personnels du biologiste suppose de les fournir dans le format attendu par l'outil. Cela implique d'effectuer un prétraitement parfois lourd, en particulier pour intégrer des ensembles de données de natures différentes. Les approches que je développe se basent sur de simples formats de données tabulaires dont les biologistes ont l’habitude.

Projets

Le projet « PAYTAL » était un projet pluridisciplinaire (économie, télédétection, fouille de données, ingénierie des connaissances) qui visait à éclairer le rôle joué par les paysages dans les mécanismes d’étalement urbain. J'ai travaillé à l'extraction de connaissances à partir de textes sur un corpus que j'ai constitué à partir des Atlas de Paysage des départements et régions français. Ces travaux ont conduit d'une part à la constitution d'une ontologie de la perception des paysages et d'autre part à une annotation, avec les termes de l'ontologie, des différentes unités paysagères (zones géographiques homogènes d'un point de vue paysager) couvertes par les atlas. Ces données ont été utilisées dans les modèles d'étalement urbain développés par les économistes porteurs du projet et pour analyser la subjectivité des auteurs des documents.

Porté par l'IFPC(Institut Français des Productions Cidricoles), ce projet fédérait des arboriculteurs, chambres d'agriculture, organismes de formation agricole ou agronomique et de recherche autour d'expérimentations, sur des parcelles d'arboriculteurs, de nouvelles pratiques de conduite de verger cidricole permettant de réduire les intrants tout en restant viable d'un point de vue technico-économique. J'ai travaillé à la mise en place d'une base de données de suivi des expérimentations sur les parcelles.

 

Le projet « AI-Fruit » visait à approfondir les connaissances sur les déterminants de la qualité de la pomme et développer des méthodes non destructives d'évaluation de cette qualité. Un volet informatique incluait la mise en place d'outils d'analyse et d'intégration des données expérimentales recueillies. Les réflexions menées ont permis d'affiner le concept de requête sémantique décrivant des besoins de traitement de données développé dans ma thèse et de l'adapter aux expériences menées sur le pommier, même si aucune implémentation concrète n'a pu être atteinte.

Le projet « GRIOTE » visait à fédérer les acteurs de la bioinformatique en Pays de Loire autour de projets collaboratifs. J’ai participé à l'encadrement de stagiaires et d'un doctorant travaillant sur la prise en compte des transcrits anti-sens dans la construction de réseaux de co-expression.

Un besoin important pour les équipes de l’IRHS était la mise en place d'outils de gestion de données, pour améliorer leur traçabilité, partage et réutilisation. Ceci est devenu un projet fédérateur pour l'équipe bioinformatique . Des financements par divers projets (« ANANdb », « AI-Fruit », «  CRB FraPeR et Apiacées », « GRIOTE ») ont permis le recrutement de stagiaires, ingénieurs contractuels et apprenti. J’ai développé un module de gestion terminologique et construit des ontologies de domaine en collaboration avec des biologistes. L’objectif est de disposer d'un vocabulaire contrôlé, inspiré d’ontologies de référence pertinentes (Plant Ontology, Gene Ontology, Crop Ontology) pour renseigner les méta-données associées aux échantillons.

Le projet européen EUCLEG visait à améliorer la diversification, la productivité, la stabilité du rendement et de la qualité des protéines des légumineuses. Les équipes SMS et ImHorPhen de l’IRHS collaboraient à la caractérisation de plantules. Les collègues de SMS ont réalisé la phase expérimentale (germination, acquisition d’images des plantules) et j’ai pour ImHorphen mesuré les plantules par analyse d’image. Ceci m’a permis de me former au traitement d’images et donné lieu au co-encadrement de 3 stagiaires avec D. Rousseau, professeur de physique à l’Université d’Angers. Actuellement, l’outil que j’ai développé consiste en des scripts Python qui exploitent des approches d’analyse d’image basés sur des morphologies mathématiques et de l’apprentissage automatique basé sur des forêts aléatoires.

Le projet DIVIS (Biological Data Integration and Visualisation) visait à explorer des approches originales et faciles d’utilisation pour l’intégration et la visualisation de gros volumes de données hétérogènes. L’outil développé manipule de grosses matrices contenant des jeux de données biologiques et : (i) Normalise les jeux de données, (ii) Regroupe les échantillons similaires en utilisant des connaissances stockées dans des ontologies conçues dans cet objectif, (iii) Représente chaque groupe par un individu archétypique « moyen », afin de constituer des « résumés » des données (iv) Construit une représentation graphique de ces résumés, dans laquelle le biologiste peut naviguer, pour acquérir une meilleure compréhension des jeux de données sous-jacents.

En 2018, un stage de M2 Bioinformatique a permis d’explorer les deux premières étapes. En 2019, la dimension visualisation graphique a été étudiée en lien avec des données de transcriptomique dans le cadre de CorGI, application web de bi-clustering, développée par l’équipe bioinformatique . Par la suite, l’ensemble du processus a été traité en lien avec des données rosier . En 2021, des travaux complémentaires ont porté sur le développement d’outils pour l’analyse de clusters inspirés de la fonction catdes du package FactoMineR, l'outil QuaDS.

Dans un contexte de changement climatique et de réduction du recours aux produits phytosanitaires, nous avons besoin de développer des systèmes de production agricole résilients. Pour ce faire, nous pouvons nous appuyer sur des modèles à différentes échelles (molécule, cellule, plante, etc.). Mais pour mieux représenter un système, il est nécessaire d’interconnecter tous les modèles existants à travers leurs différentes échelles spatio-temporelles, d’où l’émergence du paradigme du jumeau numérique. Par une représentation numérique des phénomènes, l’objectif est d’avoir des outils d’aide à la conception des systèmes, voire au pilotage, par l’inclusion de données réelles acquises sur le terrain en tant que paramètre de simulation.

L’imaginaire collectif associe aux jumeaux numériques une modélisation parfaite du réel, prenant en compte tous les paramètres, à toutes les échelles, de la molécule au champ. Mais aller vers un tel clone in silico conduit à une explosion en termes de nombre de variables et complexité des algorithmes. Il faut donc faire des simplifications pour avoir un système utilisable en termes de coûts et temps de calcul.

La question qui se pose alors est de déterminer comment interconnecter au mieux un grand nombre de modèles et raisonner au mieux les simplifications à l’échelle du jumeau numérique. Pour y répondre, l’objectif du projet est de construire une représentation formelle des connaissances à différentes échelles, telle qu’une ontologie, dont l’exploration sera automatisée. Ceci devrait permettre, dans un second temps, d’identifier les concepts qui ressortent statistiquement et de déterminer les pertinents par comparaison des données simulées avec des données réelles. Ces données réelles concerneront la production de tomates dans une serre semi-fermée, production d’intérêt économique pour laquelle de nombreux modèles sont déjà disponibles.

 

En préalable au projet DIGITOM, nous avons cherché à cacractérisé la serre semi-fermée où auraient lieu les expérimentations, en particulier en termes de climat. La caractérisation de la serre avec des capteurs déplacés hebdomadairement a montré ses limites physiques et humaines. Le projet vise à la mise au point d’un robot pour réaliser des caractérisations spatio-temporelles, en déplaçant les capteurs environnementaux dans l’ensemble du volume de la serre (acquisition 3D), à une fréquence optimisée. Des caméras sur le robot permettront de tester l’acquisition d’images pour le phénotypage dans l’espace et le temps.

Productions

Les publications auxquelles mes travaux ont donné lieu sont présentées ci-dessous, sous forme d'une liste de quelques publications remarquables ou une liste complète.

Je aussi suis impliquée dans le développement de plusieurs logiciels, listés ci-dessous, dont le code source est mis à disposition.

Publications

  • [Per+23]Alix Pernet et al., « Construction of a semantic distance for inferring structure of the variability between 19th century Rosa cultivars », in : Acta Horticulturae 1384 (déc. 2023), p. 477-484, issn : 2406-6168, doi : 10.17660/actahortic.2023.1384.60.

  • [Bar+22]Thibault Barrit et al., « A new in vitro monitoring system reveals a specific influence of Arabidopsis nitrogen nutrition on its susceptibility to Alternaria brassicicola at the seedling stage », in : Plant Methods 18.1 (déc. 2022), issn : 1746-4811, doi : 10.1186/s13007-022-00962-3.

  • [Eid+22]Rayan Eid et al., « DIVIS : a semantic DIstance to improve the VISualisation of heterogeneous phenotypic datasets », in : BioData Mining 15.1 (avr.2022), issn : 1756-0381, doi : 10.1186/s13040-022-00293-y.

  • [Bou+21]Julie Bourbeillon et al., « Characterising the Landscape in the Analysis of Urbanisation Factors : Methodology and Illustration for the Urban Area of Angers », in : Economie et Statistique / Economics and Statistics 528–529 (déc. 2021), p. 109-128, issn : 0336-1454, doi : 10.24187/ecostat.2021.528d.2062.

  • [Rou+15]Céline Rousseau et al., « Phenoplant : a web resource for the exploration of large chlorophyll fluorescence image datasets », in : Plant Methods 11.1 (avr. 2015), issn : 1746-4811, doi : 10.1186/s13007-015-0068-4.

  • [San+14]Pierre Santagostini et al., « Assessment of the visual quality of ornamental plants : Comparison of three methodologies in the case of the rosebush »,in : Scientia Horticulturae 168 (mars 2014), p. 17-26, issn : 0304-4238, doi :10.1016/j.scienta.2014.01.011.

  • [Bou+10]Julie Bourbeillon et al., « Minimum information about a protein affinity reagent (MIAPAR) », in : Nature Biotechnology 28.7 (juill. 2010), p. 650-653, issn : 1546-1696, doi : 10.1038/nbt0710-650.

  • [Glo+10]David E. Gloriam et al., « A Community Standard Format for the Representation of Protein Affinity Reagents », in : Molecular & Cellular Proteomics 9.1 (jan. 2010), p. 1-10, issn : 1535-9476, doi : 10.1074/mcp.m900185-mcp200.

  • [BGG09]Julie Bourbeillon, Catherine Garbay et Françoise Giroud, « Mass data exploration in oncology : An information synthesis approach », in : Journal of Biomedical Informatics 42.4 (août 2009), p. 612-623, issn : 1532-0464,doi : 10.1016/j.jbi.2009.02.007.

Logiciels

Un besoin important pour les équipes de l’IRHS était la mise en place d'outils de gestion de données, pour améliorer leur traçabilité, partage et réutilisation L'équipe bioinfomatique de l'unité développe des outils en ce sens, développements auxquels je contribue. Ainsi, ELVIS (Experiment and Laboratory on Vegetal Information System) regroupe les base de données et couche serveur communes aux différents outils de gestion / traitement de données développés dans l'équipe. ELVIS se présente sous la forme d'une base de données PostgreSQL et une couche service web d'accès aux données développée en Python. ELVIS est décomposé en un ensemble de modules thématiques. Plusieurs applications métier développées par l'équipe reposent sur ELVIS.

La page du projet ELVIS sur ForgeMIA

PREMS est l'application métier orientée vers la gestion de laboratoire qui repose sur ELVIS. PREMS se compose en un ensemble de briques incluant la gestion des projets, des échantillons, des résultats expérimentaux.

La page du projet PREMS sur ForgeMIA

Elterm est l'application de gestion de terminologie qui repose sur ELVIS.

Dans ELVIS, le contenu de nombreux champs est contrôlé par des listes de valeurs possibles, qui sont généralement issues de terminologies :

  • terminologies du domaine reconnues, éventuellement issues de taxonomies ou d'ontologies disponibles publiquement (Plant Ontology, Crop Ontology, etc.)
  • terminologies spécifiques que nous pouvons envisager de diffuser

Nous stockons donc un ensemble de terminologies couvrant chacune un thème : morphologie des organismes, stades de développement, conditions de culture, etc. Le principe général de ce qu'on veut stocker est similaire à ce qui se trouve dans les représentations standard de terminologies au format XML type TermBase Exchange, mais sous la forme de base de données. Elterm fournit un ensemble d'interfaces graphiques permettant aux utilisateurs de manipuler des terminologies stockées dans ELVIS.

La page du projet ELTerm sur ForgeMIA

Grâce à la généralisation des techniques expérimentales à haut débit, les biologistes accumulent de grandes quantités de données qui mélangent souvent des variables quantitatives et qualitatives et ne sont pas toujours complètes, en particulier lorsqu'il s'agit de traits phénotypiques. Afin d'obtenir un premier aperçu de ces ensembles de données et de réduire la taille des matrices à manipuler, les scientifiques ont souvent recours à des techniques d'analyse multivariée. Cependant, ces approches ne sont pas toujours faciles à mettre en œuvre, en particulier lorsqu'il s'agit de jeux de données mixtes. De plus, l'affichage d'un grand nombre d'individus conduit à des visualisations encombrées et difficiles à interpréter.

Nous avons développé une nouvelle méthodologie pour surmonter ces limites. Sa principale caractéristique est une nouvelle distance sémantique adaptée aux variables quantitatives et qualitatives qui permet une représentation réaliste des relations entre les individus (descriptions phénotypiques dans notre cas). Cette distance sémantique est basée sur des ontologies qui sont conçues pour représenter les connaissances réelles concernant les variables sous-jacentes. Pour faciliter la manipulation par les biologistes, nous avons intégré son utilisation dans un outil complet, du fichier de données brutes à la visualisation. Après le calcul de la distance, les étapes suivantes réalisées par l'outil consistent à (i) regrouper les individus similaires, (ii) représenter chaque groupe par des individus emblématiques que nous appelons archétypes et (iii) construire des visualisations éparses basées sur ces archétypes.Notre approche est implémentée sous la forme d'un pipeline Python et appliquée à un ensemble de données sur le rosier comprenant des données de passeport et des données phénotypiques.

La page du projet DIVIS sur ForgeMIA

Dans le cadre du projet DIVIS, nous avons été confrontés à la nécessité de caractériser des groupes d'individus en fonction des valeurs des variables du jeu de données. Une telle méthode a été développée par F. Husson et al avec la fonction catdes() du package R FactoMiner. Cependant, nous n'étions pas entièrement satisfaits du résultat de cette fonction, tant au niveau du tableau de données que de la visualisation. Nous avons donc développé notre propre implémentation Python, avec des extras...

La page du projet QuaDS sur ForgeMIA

QUADS sur HAL