DOING@5th MADICS SYMPOSIUM

ATELIER DOING – SYMPOSIUM MADICS

le 25 mai à Troyes, France

PROGRAM (25 Mai 2023)

14:00 – 14:05	Introduction
14:05 – 14:50	Keynote: Liat Peterfreund A Researcher’s Digest of GQL CNRS , LIGM, Université Gustav Eiffel, Paris
14:50-15:35	Présentation invitée: Perceval Wajsburt Outils de traitement des comptes-rendus cliniques dans les entrepôts de données de santé Assistance de Paris – Hôpitaux de Paris (AP-HP)
15:35 -16:00	Points clés de nos discussions DOING : échanges avec les participants Les verrous scientifiques du traitement de textes pour la représentation et la découverte d’information et de la connaissance par des techniques de TAL, IA et BD. Mirian Halfeld Ferrari, LIFO, Orléans Anne-Lyse Minard, LLL, Orléans Genoveva Varga-Solar, LIRIS, Lyon

A Researcher’s Digest of GQL

Abstract: GQL (Graph Query Language) is being developed as a new ISO standard for graph query language. It will play the same role for graph databases as SQL plays for relational. In parallel, an extension of SQL for querying property graphs, SQL/PGQ, is added to the SQL standard; it shares the graph pattern matching functionality with GQL. Both standards (not yet published) are hard-to-understand specifications of hundreds of pages. In this talk I will present clean formal calculi that underlie the main pattern matching features of GQL and SQL/PGQ, as well as querying facilities of GQL

Liat Peterfreund is a CNRS researcher at LIGM, Gustav Eiffel University. Her research focuses on the foundations of data management and she is currently working mainly on the formal semantics of graph query languages, and on new approaches for handling incomplete information. She completed her Ph.D. under the supervision of Prof. Benny Kimelfeld at the Technion, Israel, and her dissertation deals with the complexity and expressiveness of queries for information extraction — relational queries on data that is extracted from text. She is involved in the D&I DB initiative as the representative of PODS and ICDT, and in various initiatives aimed to expose high-school students to research in academia.

Outils de traitement des comptes-rendus cliniques dans les entrepôts de données de santé

Abstract: Les comptes-rendus médicaux textuels représentent une source d’information riche mais peuvent être difficiles à exploiter en raison de la variété des besoins d’extraction et de la grande quantité de données présentes dans les entrepôts de santé. En outre, les algorithmes mis en place pour traiter ces données peuvent générer des résultats différents en fonction de leur implémentation, or le besoin de reproductibilité est critique dans le monde de la recherche et de la médecine. Nous présentons notre travail sur EDS-NLP, une librairie open-source pour le traitement automatique des données textuelles cliniques françaises. Son objectif est de proposer un cadre simple pour traiter de grandes quantités de données textuelles, offrir des algorithmes performants et testés, et simplifier le partage des algorithmes de TAL via GitHub. Cette librairie offre plusieurs fonctionnalités personnalisables telles que le nettoyage de texte, l’extraction de diverses variables, dates et synonymes de terminologies et la détection d’attributs (négation, parenté, hypothèse…). De plus, l’obtention de textes de bonne qualité étant une étape critique pour l’exploitation des comptes-rendus des EDS, nous présentons également notre travail sur la librairie EDS-PDF qui vise à faciliter l’extraction de textes depuis les documents cliniques PDF.