Journée thématique "FOUILLE DE DONNEES SEQUENTIELLES ET SES APPLICATIONS"

Journée thématique :
"FOUILLE DE DONNEES SEQUENTIELLES ET SES APPLICATIONS"

Organisée par le PPF "Fouille de Données en Région Centre"
LIFO, Orléans, le 27 Novembre 2009, 10H00-17H00

Présentation

Appel à communications

Programme

Infos pratiques

Programme provisoire :

09H30	Accueil
10H00	Conférence invitée 1 : "Introduction au traitement des flux de données : du requêtage à la fouille", Georges Hébrail, Telecom-ParisTech. (Résumé)
11H00	Session de communications 1 Annotation morpho-syntaxique d'un corpus oral par enchaînements de CRF Isabelle Tellier, Iris Eshkol, Samer Taalab Université d'Orléans Résumé : Lors de l'Enquête sociolinguistique d'Orléans" (Eslo1) conduite en 1968, un corpus oral conséquent a été recueilli, puis retranscrit sous une forme textuelle. L'objectif du travail présenté ici est d'associer des étiquettes morpho-syntaxiques aux unités de ce corpus, en utilisant un modèle statistique qui prend en compte les dépendances entre étiquettes successives. Nous avons tout d'abord mené une réflexion sur la spécificité des étiquettes de l'oral et sur leurs différents niveaux de description possibles. Cette réflexion a abouti à une structuration hiérarchique originale de l'ensemble des étiquettes. Nous avons ensuite construit un étiqueteur par apprentissage automatique, à partir de données annotées par le logiciel Cordial et corrigées à la main. L'outil qui est apparu le plus adapté pour cela est le modèle des CRF (Conditional Random Fields), mis en oeuvre par exemple dans la bibliothèque CRF++. L'intérêt des CRF est qu'ils prennent en compte des dépendances assez riches entre les mots du texte et entre les étiquettes qu'il faut leur associer, et qu'ils permettent de décomposer l'apprentissage en sous-apprentissages successifs. Nous avons utilisé les connaissances linguistiques qui ont présidé à la définition des étiquettes pour réaliser cette décomposition, en testant plusieurs approches différentes. Nous aboutissons à une F-mesure de 85 à 90 suivant les paramétrages. Extraction de motifs séquentiels à partir de traces d'utilisation pour la construction automatique de modèles de tâches dans les systèmes tutoriels intelligents (pdf) Philippe Fournier-Viger, Engelbert Mephu Nguifo, Roger Nkambou Université du Québec, *LIMOS, Université Blaise Pascal
11H40	Pause
11H50	Conférence invitée 2 : "Utilisation de la fouille de séquences appliquée au texte", Thierry Charnois, Peggy Cellier, GREYC. (Résumé)
12H50	Déjeuner sur place
14H00	Conférence invitée 3 : "Extraction de motifs séquentiels ... mythes et réalités", Sandra Bringay, Cemagref - Institut de recherche pour la gestion durable des eaux et des territoires. (Résumé)
15H00	Session de communications 2 Classification et modélisation stochastique de séries temporelles de la vitesse du vent (pdf) Rudy Calif, Richard Emilion* * GRER Université des Antilles et de la Guyane, ** MAPMO, Université d'Orléans
15H40	Conférence invitée 4 : "Contributions de l'inférence grammaticale à la fouille de données séquentielles Stéphanie Jacquemont, Laboratoire Hubert Curien (Résumé)
16H40	Discussion et fin

Projet Pluri Formation "Fouille de Données en Région Centre"

Avec le soutien de :

Société Francophone de Classification

Société Française de Statistique