DOING@4th MADICS SYMPOSIUM

4th MADICS SYMPOSIUM: 11 and 12 July 2022 at Lyon, Campus de la Doua, France

ATELIER DOING

PROGRAM in French (11 July)

14h00Présentation de la demi journée, Mirian Halfeld Ferrari (LIFO, Université d’Orléans)
14h10Keynote : Aperçu général des langages de requêtes pour graphes à propriétés
Victor Marsault (CNRS, LIGM)
14h55Requêtes data science: verrous et carte d’expertise
Genoveva Vargas-Solar (CNRS, LIRIS)
15h10Panel : Représentation du contenu et extraction de connaissances à partir des textes : les systèmes de gestion de graphes, l’intelligence artificielle et les approches sémantiques
Donatello Conte (Polytech Tours, LIFAT)
Agata Savary (Université Paris-Saclay, LISN)
Nathalie Hernandez (Université de Toulouse, IRIT)
Nicolas Travers (ELSIV, Centre de Recharche Da Vinci)
16h00Cloture (Genoveva Vargas-Solar)

KEYNOTE.

INTRODUCTION AUX GRAPHES À PROPRIÉTÉS: MODÈLES ET LANGAGES DE REQUÊTES

Résumé. Traditionnellement, les bases de données suivent le modèle relationnel: les données sont rangées dans des tableaux et on utilise le langage de requête SQL afin d’en extraire de l’information. Depuis une quinzaine d’années, un autre type de modèles a commencé a être utilisé en pratique: le graphe de données. Les deux plus populaires sont le modèle de graphe à propriétés et le modèle RDF (Ressource Description Framework). L’exposé présentera les graphes à propriétés, leurs spécificités par rapport au modèle relationnel, et les différents langages de requêtes associés. Tous ces langages sont basés sur le formalisme théorique des RPQs (Regular Path Queries) qui permettent de naviguer dans le graphe en suivant une expression régulière. Néanmoins, les sémantiques des langages réels (Cypher, GQL) divergent fondamentalement de celle des RPQs. On discutera de ces différences et de leur origine.

BIO. Depuis octobre 2018, Victor Marsault est chargé de recherche au CNRS. Il est membre de l’équipe Modèle et Algorithme (MoA) du Laboratoire d’Informatique Gaspard-Monge (LIGM, UMR 8049), Université Gustave Eiffel et CNRS, Marne-la-Vallée, France. Ses recherches portent sur la théorie des bases de données, en particulier les graphes de données, les langages de requête réels et théoriques pour les graphes de données, l’algorithmique, la complexité, la décidabilité, les langages formels, en particulier la théorie des automates et des transducteurs, la logique et la numération.

PANEL

L’analyse de texte consiste à traiter des textes afin d’en extraire des faits lisibles par une machine. L’objectif de l’analyse de texte est de créer des données structurées à partir de contenus textuels libres. On peut considérer que le processus consiste à découper des tas de documents non structurés et hétérogènes en éléments de données faciles à gérer et à interpréter. Du point de vue informatique, ce processus demande l’utilisation de techniques allant du traitement semi-automatique de langue pour décoder l’ambiguïté du langage humain, la représentation de connaissances, la détection des modèles et des tendances représentant des connaissances véhiculées dans les textes (interrogation au sens large).

Le contenu des textes définit à la fois un maillage syntaxique et un maillage de concepts qui peuvent être structurés sous forme de graphes. L’interrogation de ces contenus peut être envisagée à plusieurs niveaux selon le degré d’abstraction représentée par ce graphe, allant d’un simple guidage sur le texte brut, à la construction d’une base de données (graphe) respectant un certain nombre de contraintes structurelles.

Selon les caractéristiques des graphes utilisés, il est possible d’interroger le contenu des textes de différentes manières : la recherche d’information nous offre des méthodes par mots-clés ; l’interrogation des graphes via de langages de requêtes permet de trouver des patrons structurels et de calculer des agrégations ; les méthodes d’apprentissage automatique et fouille de données nous font découvrir des motifs ; l’ intelligence artificielle rend possible la découverte des nouveaux liens sémantiques entre les concepts … L’analyse de textes et l’extraction de connaissances sont donc abordées de différents points de vue peut être complémentaires (?) selon les objectifs d’exploitation à travers des applications.

Dans ce panel nous souhaitons discuter sur : (1) La façon dont le contenu des textes est extrait et représenté par des modèles de données différentes comme les matrices avec des fréquences de termes, des ontologies, par la conception de bases de données à graphs. (2) Les implications du choix de modélisation sur les possibilités d’interrogation, de mise à jour et découverte de connaissances.

Lien pour plus d’information

BIOGRAPHIES – participants du PANEL.

Donatello Conte est maître de conférences depuis 2006, d’abord en Italie et actuellement depuis 2013 au Laboratoire d’Informatique Fondamentale et Appliquée de l’Université de Tours. Il est actuellement co-responsable de l’équipe RFAI du Laboratoire d’Informatique et participe, en tant que membre et parfois en tant que coordinateur local, à plusieurs projets régionaux d’analyse d’images et de vidéos. Ses principaux domaines de recherche sont : la reconnaissance structurelle de formes (appariement de graphes, noyaux de graphes, cartes combinatoires), l’analyse vidéo (détection et suivi d’objets, analyse de trajectoires, analyse de comportements, etc.) et l’informatique affective (reconnaissance d’émotions, analyse multimodale, estimation de mesures physiologiques par analyse de vidéos, etc.).

Nathalie Hernandez est professeure à l’Université de Toulouse – Jean Jaurès. Ses activités de recherche portent sur le Web sémantique, le Web sémantique des objets, la construction et la réutilisation d’ontologies, l’évolution d’ontologies, les questions réponses, la représentation de connaissances pour la recherche d’information, la représentation de connaissances pour les humanités numériques. Elle est responsable de la troisième année de la licence MIASHS dédiée à l’informatique. Elle a été responsable du C2i (certificat français d’informatique) de septembre 2007 à juin 2016. Elle est également impliquée depuis 2008 dans les cours traitant des technologies du Web sémantique à l’INSA Toulouse.

Agata Savary est professeure en Informatique à l’Université Paris-Saclay. Elle enseigne à l’Institut Universitaire de Technologie (IUT), département Informatique. Elle est membre du laboratoire LISN, équipe ILES (Traitement du langage naturel). Elle a été maître de conférences à l’Université de Tours, au laboratoire LIFAT, à l’équipe BdTln et à l’IUT de Blois (2002-2021). Elle a été professeure invitée à l’Université de Düsseldorf, Allemagne (2017-2018) et à l’IPIPAN, Varsovie, Pologne (2009-2010).

Nicolas Travers est professeur à l’école d’ingénieurs ESILV de Paris la Défense (dans la filière DIA). Nicolas Travers dirige le groupe numérique du laboratoire DVRC, dédié à l’analyse numérique dans les domaines de l’informatique et du marketing numérique. Il a obtenu une habilitation (HDR) en informatique de Sorbonne Universités en 2018. Ses principaux sujets portent sur la gestion et l’optimisation des bases de données, dans des environnements distribués comme les bases NoSQL, ainsi que sur la conception de bases de données ad hoc comme le tourisme numérique, les partitions musicales ou les bibliothèques multimodales.

Modératrices

Mirian Halfeld Ferrari Alves est professeure au département d’informatique de l’IUT de l’Université d’Orléans et membre de l’équipe PAMDA du laboratoire de recherche LIFO. Elle est également membre de la fédération de recherche ICVL. Sa recherche porte sur les aspects théoriques des bases de données ; les aspects dynamiques des bases de données ; les requêtes (déclaratives, pour la science des données, …) ; les bases de données à graphes, les langages d’arbres, les automates d’arbres et leurs applications sur XML et les bases de données semi-structurées ; les services web, l’application de la théorie des traces sur la composition des services web ; les bases de données déductives, bases de données temporelles ; la logique non-classique appliquée aux bases de données ; les entrepôts de données.

Catherine Roussey est chercheuse à l’Institut national de recherche sur l’agriculture, l’alimentation et l’environnement (INRAE). Elle appartient à l’équipe COPAIN du Laboratoire TSCF. Ses sujets de recherche sont la conception d’ontologies, la représentation des connaissances, la représentation du contexte, le web sémantique, les réseaux de capteurs sémantiques, le raisonnement spatial. Ses recherches portent sur les systèmes d’information utilisant des ontologies, la conception d’ontologies, la représentation des connaissances, la recherche d’informations multilingues, la sémantique du Web. Elle a publié plus de 40 articles dans des revues, des conférences et des ateliers.

Genoveva Vargas-Solar est chargée de recherche (CRHC) au CNRS. Elle est membre du groupe Bases de données du Laboratoire d’Informatique sur les Systèmes d’Image et d’Information (LIRIS). Elle est membre régulière de l’Académie mexicaine d’informatique (AMEXCOMP). De 2008 à 2020, durée de l’Unité de Recherche Internationale, LAFMIA du CNRS et du gouvernement mexicain, elle a été directrice adjointe pour l’informatique. Elle contribue à la construction de systèmes de gestion de bases de données/sciences des données basés sur des services. Ses travaux portent principalement sur les requêtes en science des données exploitant les graphes. Elle propose des méthodologies d’évaluation de requêtes, des algorithmes et des outils pour composer, déployer et exécuter des fonctions de science des données sur des architectures juste à temps (centres de données désagrégés). Elle mène des activités de recherche fondamentale et appliquée pour relever ces défis sur différentes architectures : ARM, raspberry, cluster, cloud et HPC.