
Date | - |
Heure | 10h00 - 13h00 |
Adresse | Salle des thèses - bâtiment EGS - UFR Sciences et Techniques |
Contact | |
Lien | https://www.univ-orleans.fr/fr/univ/recherche/agenda-actualites |
L'essor des réseaux sociaux, comme Twitter, a rendu ces plateformes essentielles pour diffuser des informations en temps réel lors de crises. Des méthodes automatisées de filtrage et de catégorisation de ces publications, basées sur le texte ou les images, ont été développées pour exploiter ces données. Ce travail propose d'intégrer simultanément texte et images des tweets, en fusionnant ces deux modalités. Dans un premier temps, cette thèse explore l’utilisation de plusieurs encodeurs unimodaux et techniques de fusion, tout en procédant à une analyse des tweets afin de mieux comprendre les relations entre les modalités visuelle et textuelle. Cette thèse introduit ensuite une méthode qui convertit les images dans un espace de représentation compatible avec le texte, rendant ainsi la fusion des deux modalités plus efficaces et améliorant la robustesse et la performance du modèle. Cette approche est également hybride, permettant au modèle de traiter aussi bien des tweets unimodaux que multimodaux. Cette étude met en évidence un problème courant en apprentissage multimodal : le déséquilibre des modalités, où l’une d’elles domine le processus d’apprentissage. Une méthode d’adaptation a été proposée pour réguler cette dynamique et permettre une progression d’apprentissage plus équilibrée entre les modalités. En plus des avancées méthodologiques, cette thèse présente M-CATNAT, un jeu de données multimodal français qui comble un manque linguistique et multimodal dans les ressources liées aux crises. M-CATNAT offre des annotations détaillées pour le texte, les images et le contenu combiné, fournissant une base pour le traitement des tweets de crise multimodaux en français.