Format des données en entrée

4 Format des données en entrée

4.1 Notion d’attributs complémentaires

Dans les fichiers de données, une partie des informations sert à la projection proprement dite (e.g. attributs de description des objets, matrice de distances, coordonnées 3D). Ces informations peuvent être accompagnées de données complémentaires, indiquant par exemple le nom d’un fichier image associé à un objet, la classe d’un objet dans le cas de données étiquettée, etc. De telles données sont appelées attributs complémentaires. Chaque fichier peut comporter 0, 1 ou plusieurs attributs complémentaires.

4.2 Mode multisources

Si l’utilisateur dispose, pour un jeu de données, de plusieurs fichiers sources contenant des descripteurs différents, il peut charger ses différents fichiers et observer simultanément les projections 3D obtenues pour ces différents fichiers.

L’accès à ce mode est contrôlé par les options d’Explorer3D (cf. section 6.7). Si cette option est désactivée, chaque chargement de fichier conduit à la réinitialisation de l’environnement et donc à la suppression des projections en cours, car on considère que chaque fichier porte sur des objects différents. Dans le cas contraire, l’utilisateur se voit proposer de charger les nouveaux fichiers dans le projet courant (multi source) ou dans un nouveau projet (réinitialisation).

En mode multisources, les différents fichiers peuvent contenir des données de natures différentes (attributs/valeur, distance, etc.). les objets doivent se présenter dans le même ordre dans les différents fichiers, sauf si l’on a eu recours à un fichier contenant un sous-ensemble des objets.

4.3 Sous-ensemble d’objets

Plusieurs des types de données supportés permettent le chargement de données pour un sous-ensemble des objets. Cela a surtout un sens en mode multisources, où l’on peut ne disposer de certaines informations que pour un sous-ensemble des objets, mais où l’on souhaite identifier ces objets avec ceux chargés précédemment à partir d’autres fichiers. Un fichier contenant un sous-ensemble des objets est repéré par la présence du mot-clé SUBSET dans son contenu (voir syntaxe des différents formats de fichiers). Chaque objet doit alors être accompagné de son rang dans l’ensemble complet des objets. Dans la version courante, un fichier contenant tous les objets doit être chargé avant de pouvoir utiliser un fichier de sous-ensemble.

Les fichiers sous-ensemble peuvent contenir des attributs complémentaires. La valeur de ceux-ci sera initialisée à “UNDEFINED” pour les objets manquants.

4.4 Fichiers attributs / valeurs

Il s’agit du cas le plus courant, où des objets sont décrits par une liste d’attributs. La visualisation 3D correspond alors à une projection dans un sous-espace calculé à partir des attributs initiaux.

4.4.1 Cas général

Explorer3D supporte des fichiers au format texte, avec la structuration suivante :

[SUBSET [START WITH x]]
nombre d'objets
nombre d'attributs descriptifs
nom des attributs descriptifs et noms des attributs complémentaires
Description des objets (un par ligne)

Les noms et valeurs d’attributs sont séparés par un caractère espace (il est toutefois possible de définir explicitement le caractère séaparateur utilisé, cf. section4.4.2).

Voici un exemple de fichier (début de la description du très classique jeu de données “iris”) :

150
4
A B C D classe
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
4.7 3.2 1.3 0.2 Iris-setosa
...

Dans cet exemple il y a 4 attributs descriptifs, nommés “A”,“B”, “C” et “D”, et un attribut complémentaire nommé “classe”. Les attributs descriptifs sont ici de type numérique (réel).

Remarque : attention à ne pas laisser de caractères non significatifs en fin de ligne, notamment, pour les deux premières lignes, veiller à ne pas laiser de caractères “espace” en fin de ligne.

4.4.2 Attribut séparateur spécifique

Dans le cas ou l’espace ne convienne pas comme séparateur, on peut insérer une ligne dans le fichier de données indiquant le caractère utilisé. Cette information s’insère en troisième ligne, après le nombre d’attributs, et avant la liste de noms d’attributs. Par exemple, si l’on choisi “|” comme séparateur, le fichier devient :

150
4
|
A|B|C|D|classe
5.1|3.5|1.4|0.2|Iris-setosa
4.9|3.0|1.4|0.2|Iris-setosa
4.7|3.2|1.3|0.2|Iris-setosa
...

4.4.3 Sous-ensemble d’objets

Si “SUBSET” est écrit dans la première ligne du fichier, alors le fichier et considéré comme ne contenant qu’un sous-ensemble des objets. Une valeur numérique doit être fournie au début de chaque ligne (description d’objet) donnant le rang global de cet objet.

La numérotation globale des objets commence à 0 dans Explorer3D . Si le système de numérotation de l’utilisateur ne commence pas à 0, SUBSET doit être suivi de “START WITH”, puis de l’offset de l’utilisateur. Par exemple, si l’utilisateur numérote à partir de 1, il doit ajouter “START WITH 1”.

Par exemple :

SUBSET START WITH 1
3
4
A B C D classe
5 5.1 3.5 1.4 0.2 Iris-setosa
20 4.9 3.0 1.4 0.2 Iris-setosa
110 4.7 3.2 1.3 0.2 Iris-setosa

L’utilisateur ne fournit ici que trois objets, de rang 5, 20 et 110 dans son système de numérotation qui démarre à 1. Il s’agit donc des objets 4, 19 et 109 dans Explorer3D .

4.4.4 Gestion des attributs descriptifs symboliques

Par défaut, les attributs de description sont de type numérique (réel). Explorer3D supporte cependant les attributs symboliques. Par symbolique, on entend tout attribut ne prenant pas ses valeurs dans un domaine continu (il peut donc s’agir de chaînes, mais aussi d’entiers). Afin d’indiquer leur présence, le nom de l’attribut doit se terminer par “.S”. Ceci est illustré par l’exemple suivant :

151
5
R1.S R2.S R3.S R4.S R5 Classe
A Vert OUI + 19 VRAI
B Rouge NON - 17 VRAI
C bleu NON - 49 FAUX
...

On peut constater que les 4 premiers attributs sont symboliques. Concernant les attributs numériques, une extension “.N” est possible, mais elle est optionnelle.

Concrètement, les attributs symboliques sont traités par binarisation : la liste des valeurs possibles est générée par un premier parcours du fichier de données. Chaque attribut symbolique est ensuite remplacé par une liste d’attributs, correspondant chacun à une valeur de l’attribut symbolique, prenant la valeur 0 ou 1. Ces attributs portent le nom de l’attribut d’origine, avec le suffixe “$valeur”.
Par exemple, dans le jeu de données ci-dessus, R1 est remplacé par deux attributs, “R1$1” et “R1$2”, qui pour le 1er objet valent respectivement 1 et 0, et pour le second objet 0 et 1. Cette décomposition est transparente pour l’utilisateur, et les “sous attributs” générés ne sont manipulés directement par ce dernier que dans le cadre de tâches assez avancées.

4.5 Fichiers de distances

Il s’agit de fichiers contenant des matrices de distances entre objets. La visualisation correspond alors au placement des objets dans un espace à trois dimensions, tel que les distances des objets dans cet espace soient les plus proches possible de leurs distances dans la matrice fournie. Le format du fichier est le suivant :

nombre d'objets [COMPLETE]
Liste des distances entre objets (un objet par ligne) 
Nombre ou Liste des attributs complémentaires
Valeurs des attributs complémentaires

Les distances entre objets sont données à raison d’un objet par ligne. Par défaut on ne fournit ici que la matrice triangulaire supérieure (si on a trois objets a b et c, et que d_i,j est la distance entre les objets i et j, alors le fichier contient, dans cet ordre : d_a,b et d_a,c sur la première ligne, d_b,c sur la seconde ligne).

Si, sur la première ligne, on a indiqué le mot-clé optionnel “COMPLETE”, alors la matrice complète est fournie (en reprenant notre exemple, la première ligne contiendrait d_a,a, d_a,b et d_a,c, la seconde d_b,a, d_b,b et d_b,c, etc.).

Les attributs fournis ici (deux dernières lignes du format ci-dessus) sont équivalents aux “attributs complémentaires” décrits dans la section précédente : ils ne servent pas au placement des objets, mais apportent des informations complémentaires. Si on indique un nombre d’attributs plutôt qu’une liste de noms, les attributs sont automatiquement nommés “Att1”, “Att2”, etc.

Voici un exemple de fichier (extraits d’un fichier de distances entre enluminures) :

166 
... 
1.0694574 1.1302139 1.0019832 1.0004523 ...
1.0656028 0.96607274 1.1858556 ...
...
image classe 
ms0001_1.jpg ms0001-Mazarine-Fr-SW-Début-12eme 
ms0001_2.jpg ms0001-Mazarine-Fr-SW-Début-12eme 
...

Il y a ici 166 objets. pour chaque objet on dispose de deux informations : le nom d’un fichier image associé, et le nom du document d’origine (ce fichier fournit des distances entre enluminures; les images ne sont pas stockées dans ce fichier, mais les noms d’images peuvent être utilisés par la suite pour accéder aux fichiers images).
Le premier objet appartient au document “ms0001 - Mazarine - Fr - SW - Début 12eme”, et est accompagné de l’image “ms0001_1.jpg”. Le second provient du même manuscrit et est accompagné de l’image “ms0001_2.jpg”. La distance entre le premier et le second objet est 1.0694574, la distance entre le premier et le troisième objet est “1.1302139”, etc.

4.6 Fichier de coordonnées

Contrairement aux autres formats, ce type de fichier ne commence pas par le nombre d’objets contenus (celui-ci est calculé automatiquement). Cette disposition est susceptible de changer dans les versions ultérieures.

Optionnellement, le fichier peut comporter une première ligne indiquant le nom de chaque attribut. En son absence, les noms sont automatiquement attribués.

Chaque ligne suivante décrit un objet. Elle comporte trois réels correspondant aux coordonnées de l’objet. Ces trois réels peuvent être suivis d’attributs complémentaires. Pour l’affichage, les coordonnées seront automatiquement réduites (toute valeur de coordonnées se trouve entre -1 et 1).

Voici une exemple de fichier contenant 3 points :

0.5 0.5 0.5
-0.5 -0.5 -0.5
0 0 -2

4.6.1 Sous-ensembles d’objets

Si le fichier ne contient qu’un sous-ensemble des objets, le mot clé “SUBSET” doit être ajouté, seul, en première ligne du fichier. Les lignes suivantes seront donc constituées de quatre valeurs, la première étant le rang global de l’objet. Comme pour les fichiers attributs / valeurs, SUBSET peut être suivi de “START WITH” pour spécifier un offset. Par exemple :

SUBSET START WITH 1
4 0.5 0.5 0.5
2 -0.5 -0.5 -0.5
1 0 0 -2

On fournit ici des coordonnées pour les objets 4, 2 et 1, avec un offset de 1, c’est à dire qu’il s’agit des objets de rang global respectif 3, 1 et 0.

4.7 Fichiers ne comportant que des attributs complémentaires

Il est possible de charger des fichiers ne contenant que des attributs complémentaires, sans aucun information de projection. On utilise alors le format des fichiers attributs / valeurs, en positionnant à 0 le nombre d’attributs descriptifs.

4.8 Noms d’attributs réservés (attributs complémentaires)

Il est possible d’utiliser des noms d’attributs spécifiques dans le fichier de données. Ces noms sont réservés pour désigner des types d’attributs particuliers, et ont un impact sur le fonctionnement du logiciel : ils lient directement ces attributs à des éléments visuels (tâche qui est habituellement faite à la main, comme décrit en section 6.2.1). Les deux noms réservés sont, à ce jour :

ImgFileName : la colonne contient les noms de fichiers images. Le chemin d’accès aux images est toujours relatif au répertoire du fichier de données (par exemple, dans le fichier de données de la section 4.5, les fichiers images sont supposés être dans le même répertoire que le fichier de données). Un nommage absolu à partir de la racine est possible. Ces images peuvent ensuite être visualisées de manière contextuelle (au passage de la souris sur l’objet) ou permanente, à la demande. (exemple : “/data/images/enluminures/img0001.png”).
Class : classe associée à chaque objet. Dans Explorer3D , la classe est matérialisée par une couleur. La classe peut être représentée par une valeur textuelle ou numérique. La correspondance classe-couleur et définie automatiquement par le logiciel de visualisation (Explorer3D offrant toutefois la possibilité de modifier à la volée les correspondances).

4.9 Importation de données

Dans le cas de données sources dont le format n’est pas adapté à Explorer3D ,un outil d’import est disponible. Il sera lancé automatiquement en cas de tentative de chargement de données non reconnues, et peut également être lancé par le menu “Fichiers / Outil d’importation de données”. Cet outil permet de réorganiser les lignes et colonnes de votre fichier, et vous guidera pas à pas pour adapter vos données. Toutefois, il ne fonctionne actuellement que pour des fichiers source au format texte (pas de fichier de données binaires), et se limite à l’import de fichiers “attributs / valeurs”, c’est à dire de description d’objets (pas de matrice de distances ou de coordonnées 3D directes). Ceci devrait néanmoins couvrir la plupart de vos besoins.

Pour importer des données depuis un fichier de tableur (e.g. Excell ou OpenOffice Calc), passez par votre tableur et sauvez votre fichier au format CVS (qui est un format texte); ensuite, ouvrez-le dans l’outil d’import.