SATO 4.4, Manuel de référence (mars 2007)
Table des matières | Définitions
Dictionnaire indexé
... est un dictionnaire à champs multiples utilisant la technique des fichiers séquentiels indexés. Ce type de dictionnaire exige plus d'espace sur le disque mais offre plusieurs fonctions de mise à jour.
Exploration :
AFFICHER
EXPORTER
DÉCRIRE
Exploitation :
APPLIQUER
ATTRIBUER
Gestion :
DÉFINIR { ENTIÈRE | HÉRITAGE | LIBRE | SYMBOLIQUE }
REDÉFINIR
SAUVEGARDER
SUPPRIMER

Exemples :
Exemple 1 - Dictionnaire indexé afficher
Exemple 2 - Dictionnaire indexé appliquer
Exemple 3 - Dictionnaire attribuer
Exemple 4 - Dictionnaire indexé définir
Exemple 5 - Dictionnaire indexé supprimer

Afficher
Syntaxe :
DICTIONNAIRE INDEXÉ AFFICHER fichier filtre [DÉFINITION]

AFFICHER est l'opération qui permet d'afficher le contenu d'un dictionnaire. Pour chaque entrée sélectionnée, chacun des champs du dictionnaire sera présenté, en autant qu'une valeur y ait été attribuée.

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le filtre est un patron de fouille qui permet de définir les mots du dictionnaire que l'on veut afficher. Sa valeur implicite est «$» (tous les mots).

La clé facultative DÉFINITION permet d'afficher la définition du champ en plus des valeurs.

Voir : Exemple 1 - Dictionnaire indexé afficher.


Appliquer
Syntaxe :
DICTIONNAIRE INDEXÉ APPLIQUER fichier CHAMP champ PROPRIÉTÉ propriété POUR filtre [AJOUTER|RETIRER] [LIEN propriété]

APPLIQUER permet de consulter un dictionnaire pour le projeter sur le lexique d'un corpus. Pour chaque entrée repérée, la commande affectera à une propriété lexicale la valeur correspondante inscrite dans le champ du dictionnaire. La propriété lexicale doit déjà être définie et sa déclaration doit être compatible avec celle du dictionnaire.

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le mot CHAMP suivi du nom d'un champ désigne le champ du dictionnaire que l'on veut consulter.

Le paramètre filtre (valeur implicite «$») permet de sélectionner les entrées lexicales pour lesquelles SATO consultera le dictionnaire.

La commande accepte un certain nombre de paramètres optionnels (cf. Dictionnaire : Algorithme).

Normalement, l'attribution de valeurs à une propriété à partir d'un champ du dictionnaire se fait par remplacement de l'ancienne valeur. L'option AJOUTER indique que les valeurs trouvées seront plutôt ajoutées aux valeurs existantes. À l'inverse, l'option RETIRER indique que les valeurs trouvées seront retirées de la propriété.

L'option LIEN indique que les entrées du dictionnaire qui seront consultées ne seront pas formées des caractères des lexèmes, mais plutôt des chaînes de caractères inscrites dans une propriété libre pour le lexique. Le nom de cette propriété suit immédiatement le mot LIEN.

Voir : Exemple 2 - Dictionnaire indexé appliquer.


Attribuer
Syntaxe :
DICTIONNAIRE INDEXÉ ATTRIBUER fichier CHAMP champ PROPRIÉTÉ propriété POUR filtre [LIEN propriété] [SUFFIXE propriété] [AJOUTER|RETIRER]

Syntaxe :
DICTIONNAIRE INDEXÉ ATTRIBUER fichier CHAMP champ FICHIER fichier [TABULAIRE]

ATTRIBUER permet d'inscrire des valeurs dans un dictionnaire existant et dans un champ déjà défini. Les entrées inscrites proviennent soit d'un fichier externe ou soit d'une propriété SATO. Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-». L'usager peut envoyer sur le serveur SATO un fichier en format tabulaire en utilisant la fonction d'envoi de fichier de l'interface. Le contenu d'un dictionnaire tabulaire devrait être copié à partir d'une application qui reconnaît les espaces de tabulation (tel un chiffrier).

Le mot CHAMP, suivi du nom d'un champ, désigne un champ existant du dictionnaire auquel on veut attribuer des valeurs.

DICTIONNAIRE INDEXÉ ATTRIBUER fichier CHAMP champ PROPRIÉTÉ propriété POUR filtre [LIEN propriété] [SUFFIXE propriété] [AJOUTER|RETIRER]

On peut attribuer des valeurs à un champ du dictionnaire à partir des valeurs d'une propriété lexicale. Pour ce faire, on inscrit l'option PROPRIÉTÉ suivie du nom d'une propriété lexicale dont la définition est compatible avec la définition du champ.

Le paramètre filtre (valeur implicite «$») permet de sélectionner les entrées lexicales qui vont alimenter le dictionnaire.

Dans le cas d'une attribution par propriété, la commande accepte un certain nombre de paramètres optionnels (cf. Dictionnaire : Algorithme).

L'option LIEN indique que l'entrée du dictionnaire ne sera pas formée des caractères du lexème mais plutôt de la chaîne de caractères inscrite dans une propriété libre pour le lexique. Le nom de cette propriété suit immédiatement le mot LIEN.

L'option SUFFIXE indique que la ou les entrées du dictionnaire seront obtenues suite à un mécanisme de dérivation flexionnelle. Le nom de cette propriété suit immédiatement le mot SUFFIXE. Cette propriété doit être de type symbolique pour le lexique.

Les options AJOUTER et RETIRER sont mutuellement exclusives. Normalement, l'attribution de valeurs à un champ du dictionnaire se fait par remplacement de l'ancienne valeur. L'option AJOUTER indique que les nouvelles valeurs seront plutôt ajoutées aux valeurs existantes. À l'inverse, l'option RETIRER indique que les valeurs de la propriété seront retirées du champ.

DICTIONNAIRE INDEXÉ ATTRIBUER fichier CHAMP champ FICHIER fichier [TABULAIRE]

On peut attribuer des valeurs à un champ du dictionnaire à partir d'un fichier en format texte ou d'un dictionnaire séquentiel (suffixe «.dic»). Pour ce faire, on inscrit l'option FICHIER suivi d'un nom de fichier avec son suffixe. Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Si le nom du fichier porte le suffixe «.dic», il désigne un dictionnaire en format séquentiel. Dans ce cas, la définition du dictionnaire séquentiel doit être compatible avec la définition du champ du dictionnaire indexé.

Si le nom du fichier ne possède pas le suffixe «.dic», SATO considère qu'il s'agit d'un fichier en format texte. Ce fichier a le statut d'un fichier de modifications. Lorsque l'on désire modifier un dictionnaire de grande taille, il peut être utile de procéder par un fichier de modifications pour garder une trace des modifications. Deux formats sont admissibles pour le fichier de modifications.

Si le fichier porte le suffixe «.dic», SATO va utiliser le format interne du dictionnaire séquentiel. Dans ce cas, on n'a pas à spécifier un format de fichier. Si le fichier ne porte pas le suffixe «.dic», il sera réputé être en format caractères. Le format s'interprète alors de la manière suivante.

- (aucun) : le format des données suit le protocole SATO à raison d'un lexème par ligne (ex. avoir*gramr=V).

- Tabulaire : pour chaque ligne, on a le lexème, une tabulation (ou des espaces), et la valeur à inscrire au dictionnaire.

Le fichier de modifications peut prendre la forme d'un lexique exporté selon le protocole SATO. On a alors, pour chaque ligne du fichier, les caractères du lexème suivis de l'astérisque, du signe d'égalité et de la valeur de propriété (ex. avoir*gramr=V). Dans ce cas, on peut avoir plusieurs propriétés correspondant à autant de champs du dictionnaire. Ces références aux champs ont priorité sur le nom du champ mentionné dans la commande DICTIONNAIRE.

Il est aussi possible d'utiliser ce format pour supprimer des entrées du dictionnaire. Dans ce cas, les caractères de l'entrée doivent être immédiatement suivis de l'opérateur «*-». Par exemple :

erreurr*-

aura pour effet de supprimer l'entrée «erreurr».

Le fichier de modifications peut aussi prendre la forme d'un tableau à deux entrées. On choisit cette option en ajoutant le mot clé TABULAIRE à la fin de la commande. Le fichier contient alors une suite d'entrées à raison d'une entrée par ligne. Pour chaque ligne, on a d'abord les caractères de l'entrée suivis d'une tabulation et de la valeur à inscrire dans le champ désigné. Cette valeur est écrite selon la syntaxe SATO correspondant au type du champ.

Voir : Exemple 3 - Dictionnaire indexé attribuer.


Décrire
Syntaxe :
DICTIONNAIRE INDEXÉ DÉCRIRE fichier CHAMP champ filtre

DÉCRIRE fournit une description du contenu du dictionnaire. Le type de description fournie dépend du type de champ. La description débute par la définition du champ. Un champ entier se traduit par le calcul de la moyenne et de l'écart type. Un champ symbolique entraine le décompte de la fréquence absolue et relative de chaque symbole. Dans tous les cas, la description se termine par le décompte du nombre d'entrées lues et trouvées.

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le mot CHAMP suivi du nom d'un champ désigne le champ du dictionnaire que l'on veut décrire.

Le filtre est un patron de fouille qui permet de définir les entrées du dictionnaire que l'on veut décrire. Sa valeur implicite est «$» (tous les mots).


Exporter
Syntaxe :
DICTIONNAIRE INDEXÉ EXPORTER fichier filtre [DÉFINITION]

EXPORTER permet d'enregistrer le contenu du dictionnaire sur le fichier de listage. Pour chaque entrée sélectionnée, chacun des champs du dictionnaire sera présenté, en autant qu'une valeur y ait été attribuée.

Voir : AFFICHER pour l'explication des paramètres et du fonctionnement de la commande.

Définir
Syntaxe :
DICTIONNAIRE INDEXÉ DÉFINIR fichier CHAMP champ {ENTIER|LIBRE|SYMBOLIQUE symboles}

DÉFINIR permet de définir un champ dans un dictionnaire indexé. Si le dictionnaire est nouveau, il sera créé. Contrairement au dictionnaire séquentiel où la création du champ correspond à l'opération d'attribution des valeurs, le dictionnaire indexé requiert la définition d'un champ préalablement à l'attribution de ses valeurs.

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le mot CHAMP suivi du nom d'un champ désigne le champ du dictionnaire que l'on veut exporter.

La chaîne de caractères qui permet de nommer un champ suit la même syntaxe que celle utilisée pour les noms de propriété (cf. Nom de propriété).

On doit ensuite définir le type du champ de la même manière qu'on définit le type d'une propriété. Un champ ENTIER pourra recevoir des valeurs entières. Un champ LIBRE pourra recevoir des chaînes de caractères ne dépassant pas 255 caractères. Un champ SYMBOLIQUE est un champ ensembliste dont les valeurs sont pigées parmi un ensemble fermé de symboles admissibles. Ces symboles sont des chaînes de caractères ne dépassant pas 64 caractères. Si un symbole contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais ("). Chaque symbole est séparé du suivant par au moins un espace.

Voir : Exemple 4 - Dictionnaire indexé définir.


Redéfinir
Syntaxe :
DICTIONNAIRE INDEXÉ REDÉFINIR fichier CHAMP champ {+|-|=} symbole

REDÉFINIR sert à modifier la définition d'un champ symbolique existant.

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le mot CHAMP suivi du nom d'un champ désigne le champ du dictionnaire dont on veut modifier la définition.

L'option «+» sert à ajouter un symbole à la définition du champ. À l'inverse, l'option «-» est utilisée pour enlever un symbole de la définition du champ. Enfin, l'option «=» permet de renommer un symbole déjà défini.

Le paramètre symbole suit la syntaxe du symbole d'une propriété symbolique (cf. Symbole de propriété symbolique).


Sauvegarder
Syntaxe :
DICTIONNAIRE INDEXÉ SAUVEGARDER fichier CHAMP champ filtre

SAUVEGARDER permet de sauvegarder un champ du dictionnaire indexé dans un dictionnaire de format séquentiel. Le champ sera sauvé dans un fichier portant le nom du champ à sauvegarder avec le suffixe «.dic». Un nom de fichier devrait être composé de lettres minuscules sans accents, de chiffres et des caractères «-» et «_». Il ne doit pas contenir d'espaces et ne doit pas débuter par «-».

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl».

Le mot CHAMP suivi du nom d'un champ existant désigne le champ du dictionnaire que l'on veut manipuler.

Le filtre est un patron de fouille qui permet de définir les entrées du dictionnaire que l'on veut sauvegarder. Sa valeur implicite est «$» (tous les mots).


Supprimer
Syntaxe :
DICTIONNAIRE INDEXÉ SUPPRIMER fichier CHAMP champ

SUPPRIMER permet d'effacer un champ du dictionnaire.

Le paramètre fichier désigne le nom du fichier dictionnaire. SATO assume que le fichier porte le suffixe «.bdl».

Le mot CHAMP suivi du nom d'un champ existant désigne le champ du dictionnaire que l'on veut supprimer.

Il est à noter que, si on peut effacer tous les champs d'un dictionnaire, il est impossible d'effacer le fichier dictionnaire lui-même. On peut cependant le détruire par les commandes de gestion de fichier du bureau.

Voir : Exemple 5 - Dictionnaire indexé supprimer.


Exemple: Afficher

Exemple 1. Exemple d'affichage d'un dictionnaire indexé.
Dans l'exemple qui suit, on fait afficher les entrées du dictionnaire indexé «verbe.bdl» qui commencent par «amourachai». On fait aussi afficher la défition du dictionnaire avec ses divers champs. Le champ «Gramr» contient la catégorie majeure. Les champs «Verbe» et «V-lemme» contiennent les catégories fines et le lemme des verbes

DICTIONNAIRE INDEXÉ AFFICHER verbe amoura$ DEFINITION
champ Gramr symbolique Abr Adjdém Adjexc Adjind Adjint Adjnum Adjpos Adjqua
Adjrel Adv Artdéf Artind  Artpar Con Dél Int Mor Nomcom Nompro Ono Pon Pré
Prodém Proexc Proind Proint Proper Propos Proréf  Prorel Rés X Vaux Vconj Vinf
Vparpas Vparpré

champ Verbe symbolique Vconpré1 Vconpré2 Vconpré3 Vconpré4 Vconpré5 Vconpré6
Vindfut1 Vindfut2  Vindfut3 Vindfut4 Vindfut5 Vindfut6 Vindimp1 Vindimp
Vindimp3 Vindimp4 Vindimp5 Vindimp6 Vindpas1  Vindpas2 Vindpas3 Vindpas4
Vindpas5 Vindpas6 Vindpré1 Vindpré2 Vindpré3 Vindpré4 Vindpré5 Vindpré6
Vimppré2 Vimppré4 Vimppré5 Vsubimp1 Vsubimp2 Vsubimp3 Vsubimp4 Vsubimp5 
Vsubimp6 Vsubpré1 Vsubpré2  Vsubpré3 Vsubpré4 Vsubpré5 Vsubpré6

champ V-lemme libre

amourachai
	Gramr=Vconj
	Verbe=Vindpas1
	V-lemme=[amouracher]
amourachaient
	Gramr=Vconj
	Verbe=Vindimp6
	V-lemme=[amouracher]
amourachais
	Gramr=Vconj
	Verbe=(Vindimp1,Vindimp2)
	V-lemme=[amouracher]
amourachait
	Gramr=Vconj
	Verbe=Vindimp3
	V-lemme=[amouracher]

Voir la commande : AFFICHER


Exemple: Appliquer

Exemple 2. Exemple d'application d'un dictionnaire indexé.
L'exemple suivant illustre l'application du dictionnaire de catégories grammaticales «bdl.bdl» sur les fables de La Fontaine. Dans cet exemple le champ du dictionnaire et la propriété lexicale portent le nom «Gramr». Il n'est pas nécessaire que le champ du dictionaire et la propriété possèdent le même nom. Il faut cependant que les valeurs de la propriété lexicale soient compatibles avec les valeurs du dictionnaire. Dans notre exemple, le dictionnaire est appliqué à l'ensemble des lexèmes («$»). Les résultats affichés se résument à quelques statistiques indiquant le nombre d'accès au dictionnaire et le nombre d'entrées qui ont été trouvées.

DICTIONNAIRE INDEXÉ APPLIQUER bdl champ Gramr propriété Gramr pour $
nombre d'entrées lues, trouvées, écrites: 169, 162, 0

Voir la commande : APPLIQUER


Exemple: Attribuer

Exemple 3. Exemple d'attribution d'un dictionnaire indexé.
Dans l'exemple suivant, on va ATTRIBUER au champ «note» du fichier indexé «def.bdl» les annotations en format libre qui sont inscrites sur le fichier en format texte «import.txt» dont voici le contenu:

corbeau "oiseau, famille des cervidés"
renard "mammifère, famille des canidés"
grenouille "batracien"
De façon similaire, la commande suivante permet d'ATTRIBUER au champ «note» les valeurs associées à la propriété «notice», une propriété lexicale en format libre. On remarquera l'utilisation du patron «$*notice=_$» pour désigner toutes les notices non vides, c'est-à-dire qui possèdent au moins un caractère.

DICTIONNAIRE INDEXÉ ATTRIBUER def CHAMP note FICHIER import.txt TABULAIRE
nombre d'entrées lues, trouvées, écrites: 0, 0, 2

DICTIONNAIRE INDEXÉ ATTRIBUER def CHAMP note PROPRIÉTÉ notice POUR $*notice=_$
nombre d'entrées lues, trouvées, écrites: 0, 0, 1

Voir la commande : ATTRIBUER


Exemple: Définir

Exemple 4. Exemple d'attribution d'un dictionnaire indexé.
La commande suivante permet de définir le champ libre «notice» et le dictionnaire indexé «def.bdl» si celui-ci n'existait pas déjà. La commande est invalide si le champ à définir existe déjà.

DICTIONNAIRE INDEXÉ DÉFINIR def CHAMP notice LIBRE
nombre d'entrées lues, trouvées, écrites: 0, 0, 0

Voir la commande : DÉFINIR


Exemple: Supprimer

Exemple 5. Exemple de suppression d'un dictionnaire indexé.
La commande suivante a pour résultat de supprimer le champ «note» du dictionnaire «def.bdl».

DICTIONNAIRE INDEXÉ SUPPRIMER def CHAMP note
nombre d'entrées lues, trouvées, écrites: 0, 0, 0

Voir la commande : SUPPRIMER