JOURNÉES DOING 2023 (13-14 AVRIL)

UN ÉVÉNEMENT DIAMS & MADICS

L’action DOING, dans le cadre du GDR MADICS et du RTR DIAMS, organise deux journées de travail en 2023 pour rassembler une communauté scientifique multidisciplinaire et promouvoir l’échange et le débat scientifique sur les défis concernant le traitement du langage naturel, l’intelligence artificielle et les bases de données avec des perspectives diverses et complémentaires sur les approches et solutions existantes.

LIEU: Amphithéâtre – Bâtiment IRD – Université d’Orléans. (itineraire)
Campus Université d’Orléans
Accès: Il existe deux gares à Orléans. La gare “les Aubrais” se trouve sur la ligne principale au nord d’Orléans ; la seconde est la gare d'”Orléans” en centre ville. Tous les trains venant de Paris s’arrêtent à la gare des Aubrais, mais pas toujours à la gare d’Orléans
Pour atteindre le campus universitaire depuis les deux gares il est préférable de prendre le Tram (direction Hôpital de la Source, arrêt : “Université – Parc Floral”). Compter 30 minutes depuis la gare d’Orléans et environ 40 minutes depuis la gare des Aubrais.

PROGRAMME (en construction)

13 AVRIL

9h 30min: Accueil
10h-11h : Présentation invitée. Analyse de l’évolution des sciences dans les grands corpus de documents scientifiques. Hubert Naacke (LIP6, UMR 7606 Sorbonne Université – CNRS)
11h-11h15min: Pause
11h15min – 12h15min : Présentation invitée. Structuration de la donnée géoscientifique. Christelle Loiselet (BRGM)
12h15min – 14h: déjeuner
14h-15h: Présentation invitée. Méthodologie d’acquisition de la donnée de type CDISC utilisée en milieu médical. Yann Dantal (BRGM)
15h – 16h: Discussions sur la structuration des données textuelles

14 AVRIL

9h 30min: Accueil
10h-11h : Présentation invitée. Counting Queries in Ontology Based Query Answering. Michaël Thomazo (ENS-PSL, INRIA et CNRS)
11h-11h15min: Pause
11h15min – 12h15min : Présentation invitée. Le Machine Learning sur graphe et ses applications. Donatello Conte (LIFAT, Université de Tours)
12h15min – 14h: déjeuner
14h-15h: Présentation invitée. Utilisation de la data science et des graphes avec Neo4j : préparation, gestion en mémoire et passage à l’échelle. Pierre Halftermeyer (Neo4J)
15h – 16h: Discussions sur les requêtes data science

RESUMÉ: Analyse de l’évolution des sciences dans les grands corpus de documents scientifiques (Hubert Naacke). L’évolution des sciences est étudiée en adoptant une approche empirique qui consiste à observer et analyser le changement du contenu (titre, résumé) d’archives scientifiques. Nous commençons par un bref état de l’art des solutions d’extraction de thèmes (topic models) basée sur des modèles probabilistes (e.g., LDA) et sur des modèles de langage (e.g., BERT). Puis nous présentons la notion de graphe pivot pour représenter des motifs d’évolution ainsi qu’un langage pour les interroger. Dans un environnement à large échelle nous détaillons le calcul efficace de deux étapes de construction des graphes pivots. Nous concluons avec des perspectives pour intégrer d’autres informations contextuelles dans l’analyse de l’évolution des sciences.

Hubert Naacke est, depuis 2002, Maître de Conférences à Sorbonne Université, habilité à diriger des recherches depuis 2022. Ses travaux de recherche s’inscrivent dans le domaine de la gestion de données à large échelle : traitement de requêtes pour des grands graphes dans des plateformes de calcul parallèle, optimisation des chaînes de fouille de texte, recommandation de points d’intérêts à partir de données de mobilité. Il a encadré 8 doctorants dont une thèse sur l’analyse de l’évolution des sciences. Il encadre actuellement une thèse sur l’application des modèles d’apprentissage automatique à l’analyse de l’évolution des sciences. Il collabore depuis 15 ans avec l’Université de Dakar ; actuellement cette collaboration porte sur l’acculturation à la science des données dans le domaine de l’agriculture. Il est co-responsable du parcours Données, Apprentissage et Connaissance du Master d’Informatique de Sorbonne Université. Ses enseignements, en formation initiale et continue, concernent le big data et les problématiques liées aux grands volumes de données et à leur diversité.

RESUMÉ: Structuration de la donnée géoscientifique. Le Système d’Information pour les données géoscientifiques met à disposition une organisation de la gestion de données geoscientifiques depuis l’acquisition jusqu’à la diffusion des connaissances pour répondre aux besoins utilisateurs de cette donnée. Nous développons une plateforme intégrative qui met à disposition, entre autres, des méthodes et des outils de capitalisation et de validation de données de référence, la traçabilité de l’information, la mise à jour en continu tout en garantissant l’accès et la diffusion des données et des modèles. Ce système s’intègre dans une plateforme numérique qui met à disposition des outils de traitement des données. Il s’agit de concevoir, de développer et de mettre en production une chaîne d’outils et d’application opérationnels répondant aux principes de la FAIRisation des données (interopérabilité des données).

Christelle Loiselet docteur en géophysique interne et numérique, est Directrice adjointe de la Direction du Numérique pour les Géosciences au BRGM. Elle dirige actuellement l’activité scientifique de la direction en lien avec la science de la donnée. Elle mène des travaux sur le développement d’un système numérique de gestion et traitement des données géoscientifiques en utilisant des normes internationales dédiées. Elle est membre du conseil du IUGS-CGI et du comité exécutif du pôle Terre Solide Form@Ter de l’IR nationale Dataterra.

RESUMÉ: Méthodologie d’acquisition de la donnée de type CDISC utilisée en milieu médical (Yann Dantal). La méthodologie sera présentée avec ses caractéristiques. Je montrerai comment elle se retrouve aussi dans différents domaines d’applications autres que le médical (Modèle SCORM pour la formation, modèle O&M pour la géologie). Plusieurs exemples seront présentés dans le domaine de la géologie, en particulier en Géophysique et en Intelligence Minérale. Cette méthodologie qui se retrouve dans différent format d’acquisition de données par des groupes de personnes ne travaillant pas ensemble nous invite t’il pas à se demander si il ne s’agit pas d’un moyen universel de questionner le monde?

Yann Dantal. Après des études d’ingénieur généraliste à l’Ecole Polytechnique Promotion 1993, il a réalisé une thèse dans le domaine de la propulsion spatiale par moteur à effet hall. Durant sa thèse, il s’est rendu compte qu’une énorme quantité de données expérimentales et de traitements de données étaient perdu par manque d’infrastructure et de compétence. Avec un camarade de promotion, M Christophe Haug, il a lancé en l’an 2000 la société Soluscience pour fournir des appuis aux laboratoires de recherches pour structurer leurs données expérimentales et capitaliser les traitements de données qu’ils développaient. Petit à petit cette activité s’est complété entre 2000 et 2010 par l’assistance au montage de projet de recherche pour les laboratoires de recherches au niveau de collectivités locales, puis du FEDER, du 7 PCRDT et des programmes internationaux avec la Chine. Durant cette phase, l’activité de recherche s’est tourné progressivement sur la modélisation des protocole d’acquisition de données dans le domaine de la recherche médicale. Entre 2006 et 2009, il a co-déposé et co-dirigé le programme Leukotreat, programme médaille d’or de la commission Européenne pour l’étude des pathologies de la famille des leucodystrophies, maladies génétiques touchant le système nerveux de l’enfant. Entre 2010 et 2022, il a tourné l’activité de la société Soluscience vers l’optimisation de la prise en charge des patients en milieu médical, avec pour objectif secondaire de faciliter le passage de données entre le monde médical et la recherche médicale. Entre 2010 et 2020, l’apport suffisant de données collectées au sein de l’activité médicale courante a permis de sélectionner des cohortes homogènes de patient suffisante pour mettre au point les premiers traitements géniques efficaces par voie intra veineuse. Suite à l’évolution du secteur médical entamé en l’an 2000 ne valorisant plus ce type d’actions permettant d’améliorer la santé des patients, en réduisant leur coût de prise et en favorisant le passage de données vers la recherche médicale, il a décidé d’arrêter cette activité fin 2022. Il a intégré le BRGM, ou il prend en charge des programmes à fort enjeux sociétal, gestion des données du projet JUNON sur l’étude de la ressource en eau, du rejet de gaz à effet de serre et de polluants à effet sanitaire, projet OFREMI (Obsrevatoire Français des Ressources Minérales) pour la gestion du système d’information, et la fédération des données géophysiques pour recenser campagnes de mesures géophysique diverses permettant d’imager le sous sol.

RESUMÉ: Counting Queries in Ontology Based Query Answering (Michaël Thomazo). Ontology mediated query answering (OMQA) is a promising approach to data access and integration, that has been studied in the knowledge representation community as well as in the database community. Most of the work on OMQA has focused on Boolean conjunctive queries, whereas queries expressed over relational databases quite often feature counting or other forms of integration. In this talk, I will present a formalization of counting queries in the OMQA setting, and provide an overview of techniques used to solve such queries. This talk is mostly based on the PhD thesis of Quentin Manière (now postdoc at Leipzig University).

Michaël Thomazo is a junior researcher at Inria, in the Valda team (joint between Ecole Normale Supérieure — PSL, CNRS and Inria), as well as an adjunct professor in AI at PSL University. He obtained his Ph.D from the University of Montpellier in 2013 with Jean-François Baget and Marie-Laure Mugnier, before joining Sebastian Rudolph at TU Dresden as an Alexander von Humboldt fellow. He joined Inria in 2015.

RÉSUMÉ: Le Machine Learning sur graphe et ses applications (Donatelo Conte). Les graphes sont largement utilisés comme représentation de réseaux des données connectées. Les données représentées par graphes se retrouvent dans un large éventail de domaines d’application tels que les systèmes sociaux, les écosystèmes, les réseaux biologiques, les bases de données, mais aussi les domaines tels que la vision par ordinateur et le traitement du langage. L’apprentissage sur graphe s’avère efficace pour de nombreuses tâches, telles que la classification, la prédiction de liens et l’appariement. Cette intervention vise à présenter une vue d’ensemble de l’état de l’art du Machine Learning sur graphe et les domaines d’application tels que les réseaux sociaux, la vision par ordinateur, les systèmes d’information.

Donatello Conte est professeur à l’Université de Tours. Il a obtenu son doctorat en 2006, une cotutelle entre les laboratoires LIRIS de Lyon et MIVIA de l’Université de Salerno (Italie). En 2014 a obtenu son HDR à Université de Tours. Depuis 2020 il est responsable du Département Informatique de l’école d’ingénieur Polytech Tours. Il est actuellement co-responsable de l’équipe RFAI du laboratoire LIFAT et participe, en tant que membre et parfois en tant que coordinateur local, à plusieurs projets régionaux d’analyse d’images et de vidéos. Auteur de plus de 70 publications, ses principaux domaines de recherche sont : la reconnaissance structurelle de formes (appariement de graphes, noyaux de graphes, cartes combinatoires), l’analyse vidéo (détection et suivi d’objets, analyse de trajectoires, analyse de comportements, etc.) et l’informatique affective (reconnaissance d’émotions, analyse multimodale, estimation de mesures physiologiques par analyse de vidéos, etc.). Depuis 2016 il est membre du Conseil d’Administration de l’association IFRATH (Institut Fédératif de Recherche sur les Aides Techniques) et de l’association AFRIF (Association Française pour la Reconnaissance et l’Interprétation des Formes). Depuis 2018 il est secrétaire général de l’AFRIF. Il est membre du Comité Technique International TC15 de l’IAPR (dédié à la promotion des graphes dans la reconnaissance de formes), pour lequel il vient d’être nommé (en février 2021) chairman.

RÉSUMÉ: Utilisation de la data science et des graphes avec Neo4j : préparation, gestion en mémoire et passage à l’échelle (Pierre Halftermeyer). Dans cette présentation, nous aborderons l’utilisation de la data science et des graphes avec Neo4j, en nous concentrant sur les aspects de préparation et de gestion en mémoire des graphes pour l’application d’algorithmes. Nous discuterons également des aspects d’indexation et d’optimisation de requêtes, à la fois classiques et liés à la data science, ainsi que des stratégies de passage à l’échelle pour répondre aux besoins de gestion de données à grande échelle.

Pierre Halftermeyer est ingénieur commercial et expert en science des données graphiques chez Neo4j. Il est titulaire d’un doctorat en informatique de l’Université de Bordeaux avec une spécialisation dans les algorithmes d’étiquetage de graphes plongés sur des surfaces.