SATO 4.4, Manuel de référence (mars 2007)
Table des matières | Définitions
Dictionnaire
Le DICTIONNAIRE est une classe d'objets comprenant divers dictionnaires de formats différents. Pour SATO, un dictionnaire est un fichier externe, une base de données, qui permet d'associer des valeurs de propriété à des chaînes de caractères qui représentent normalement des formes lexicales. SATO fournit un ensemble de dispositifs pour créer, consulter et modifier des dictionnaires. On peut aussi les fouiller avec des filtres comme on le fait pour le lexique et le texte.

La commande supporte trois formats internes pour les dictionnaires : un format séquentiel, un format indexé et un format tabulaire prenant la forme d'un tableau de colonnes délimités par des tabulations.
Dictionnaires :
INDEXÉ
SÉQUENTIEL
TABULAIRE
Algorithme


Algorithme

Un dictionnaire SATO est comparable au lexique du corpus : il contient un savoir lexical qui est détaché des corpus particuliers. Ce savoir lexical appartient à la langue ou à un domaine du savoir. Plusieurs des opérations sur les dictionnaires sont comparables à celles qui concernent les propriétés lexicales. De plus, on trouvera des opérations permettant d'alimenter le dictionnaire à partir du lexique du corpus (ATTRIBUER). De même, on aura des opérations permettant de projeter (APPLIQUER) des informations contenues dans le dictionnaire sur le lexique du corpus.

Au-delà des différences de format qui concernent chacun des types de dictionnaire, nous présentons ici le fonctionnement général des fonctions qui concernent le dictionnaire.

Les entrées dans un dictionnaire peuvent être de deux types. D'abord, et c'est le plus courant, il s'agira d'entrées lexicales. Ces entrées vont permettre de catégoriser le lexique par comparaison avec les lexèmes. À défaut d'indications contraires, c'est le mode implicite de fonctionnement du dictionnaire. Ou bien, les entrées du dictionnaire peuvent être constituées de valeurs de propriété en format libre. De cette manière, on peut bâtir un dictionnaire de concepts mettant en relation une propriété en entrée principale avec des propriétés en annotation. Ce mode de fonctionnement est choisi en sélectionnant l'option LIEN du dictionnaire indexé.

Lorsque l'on doit projeter un champ du dictionnaire sur une propriété, ou lorsque l'on doit lui attribuer des valeurs à partir d'une propriété, il faut s'assurer que les définitions respectives du champ et de la propriété sont compatibles. Les valeurs inscrites dans le dictionnaire doivent correspondre à des valeurs équivalentes de la propriété lexicale. Par exemple, un dictionnaire d'entiers doit correspondre à une propriété entière. Dans le cas d'une propriété symbolique, les symboles utilisés dans le dictionnaire doivent se retrouver dans la liste des symboles de la propriété.

Normalement, lorsque l'on projette un dictionnaire sur le lexique, ou lorsqu'on lui attribue des valeurs, l'opération se fait par remplacement de l'ancienne valeur par la nouvelle. En sélectionnant les options AJOUTER ou RETIRER, l'opération se fera plutôt par ajout ou soustraction. Dans le cas d'une propriété et d'un champ numérique, cette opération désigne l'addition et la soustraction arithmétique. Dans le cas d'une propriété ou d'un champ symbolique, ces opérations désignent l'addition et la soustraction ensembliste, c'est-à-dire l'ajout ou le retrait d'un symbole à l'ensemble préexistant pour l'entrée sélectionnée. Dans le cas d'une propriété ou d'un champ en format libre, l'ajout correspond à une opération de concaténation en fin de chaîne. Cette concaténation ne sera réalisée que si la chaîne à ajouter ne figure pas déjà comme sous-chaîne dans la valeur existante. Le retrait signifie la suppression de la première occurrence de la chaîne à retirer si elle existe comme sous-chaîne dans la valeur existante.

Dans le cas d'un dictionnaire indexé, il est possible de générer des entrées en utilisant un mécanisme de dérivation par suffixation. C'est là l'objet de l'option SUFFIXE. Les suffixes sont définis par une propriété symbolique pour le lexique. Si le premier caractère du suffixe est un chiffre (de 1 à 9), il s'agira du nombre de caractères à retrancher à la fin du l'item à inscrire au dictionnaire. Les caractères restants du suffixe seront ajoutés à la fin de l'item. «$» prescrit de générer l'entrée sans suffixation. Le mécanisme est repris pour chacun des suffixes constituant l'ensemble de valeurs de la propriété pour l'item concerné. Pour chaque item ainsi généré, une valeur de propriété sera inscrite dans le dictionnaire.