Au sein du Master INIS, le parcours WIN (Web, Intelligence et Nomadisme) apporte au futur diplômé des compétences autour de la fouille de données en général, avec une attention particulière portée aux vastes gisements d'information en ligne.
Ce parcours s'articule autour des modules spécifiques suivants :
- Extraction de connaissances dans les bases de données
Que peut-on apprendre à partir d'une masse de données ? On peut y chercher une forme de structuration, par exemple pour segmenter une clientèle, ou pour définir des grandes familles de molécules. A l'inverse, si l'on connait déjà la structuration en catégories de nos données, on peut chercher à extraire les points de convergence au sein de chaque catégorie, ou au contraire de divergences entre catégories différentes. Ce module vise à étudier ces deux grandes familles de tâches, appelées classification supervisée et apprentissage non-supervisé, à présenter l'éventail des méthodes disponibles (arbres de décision, modèles probabilistes, réseaux de neurones, classification hiérarchique, k-means, motifs fréquents...) et des problèmes auxquels s'applique chacune d'entre elles. Plusieurs outils logiciels sont présentés et utilisés (rapidminer, weka, R, ...).
- Fouille de données et fouille de textes
Ce module fait suite à "Extraction de connaissances dans les bases de données" et se compose de deux thématiques. Il aborde tout d'aborde la fouille de données temporelles (distance entre séries, alignement de séquences, modèles de Markov cachés, recherche de motifs fréquents). Il présente ensuite la problématique de l'extraction de connaissances à partir de textes (comprendre la structuration des documents électroniques, en extraire des informations, classer ces documents sur la base des informations extraites). On peut voir que ce second point s'articule avec les techniques de fouille d'opinion vues dans le module "Webmining et réseaux sociaux".
- Webmining et réseaux sociaux
Comprendre, localiser et exploiter les données issues du web : fouille de réseaux sociaux (identifier des communautés, des leaders d'opinion, ...), fouille d'opinion (identifier des opinions positives ou négatives, étudier les mécanismes de recommandation des sites de musique ou de vidéo en ligne,..), web sémantique (comprendre et utiliser les systèmes d'annotation avancés de documents en ligne, voir par exemple dbpedia), open data et data mashup (accéder aux données publiques en ligne et les agréger pour produire de nouveaux services).
- Pratique des contraintes
Utiliser les méthodes et outils du monde des contraintes pour modéliser et résoudre efficacement des problèmes complexes (modéliser le problème, en établir les paramètres et les contraintes sur ces derniers, établir les indicateurs de -bonne- résolution du problème et utiliser un logiciel pour atteindre cet objectif). Etude de cas du monde réel.
- Visualisation avancée
Maitrise et mise en oeuvre des outils de réalité virtuelle : de la programmation 3D à la recherche de performance. Comment adapter ces concepts et outils à une visualisation nomade ou au contraire à des environnements graphiques haute définition.
Ces modules viennent compléter le socle de la spécialité INIS, lequel apporte des compétences autour des environnements mobiles (développement et sécurité des systèmes nomades, ...) et des architectures logicielles modernes (architectures applicatives réparties, JavaEE, web services, ...).
Débouchés
Au delà des débouchés classiques de ce master (développement d'applications nomades, développement et conception de logiciels d'entreprise,...), le parcours WIN offre des débouchés dans le domaine florissant de la fouille de données. Toutes les grandes entreprises utilisent, en interne ou par le biais de prestataires, la fouille de données afin de mieux cibler leurs clients et de mieux comprendre les attentes de ceux-ci, mais également pour mieux maitriser leurs fonctionnement interne (anticipation des stocks, etc.). Cet usage, déjà ancien dans le monde de la vente (supermarchés, VPC, téléphonie mobile), se développe maintenant vers des analyses plus fines, comme l'analyse des usages (traces d'utilisation de logiciels, navigation web,...) mais aussi vers des secteurs tels que la distribution d'énergie et de fluides (anticipation des pics de consommation, détection d'anomalies, ...). Le monde la science est également très demandeur de ces outils (bioinformatique, étude de l'environnement, ...).
Concernant les entreprises spécialisées dans le développement de solutions de fouille de données, on pourra par exemple citer SAS, Oracle, IBM, Kxen, ...
Différentes organisations permettent un relais efficace entre le monde de la recherche et de l'enseignement et les problématiques industrielles (on pourra par exemple consulter le site kdnuggets, ou, au niveau français, le site de l'association egc).