Table des matières | Définitions SATO 4.4, Manuel de référence (mars 2007)
Processus de catégorisation lexicale pas-à-pas
L'annotation (ou catégorisation lorsqu'on applique une grille), est une façon privilégiée d'analyser un texte. Ainsi peut-on identifier des mots qui, au-delà de leurs différences, ont des traits communs. Lorsque l'on catégorise dans SATO on appose à une forme lexicale, ou un mot (occurrence), une étiquette symbolique.

Ce chapitre propose une description, illustrée étape par étape, des opérations techniques à effectuer pour procéder à la catégorisation manuelle de formes lexicales. Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web, ainsi que les définitions de lexique et de propriété. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence.

1. Définition d'une propriété de catégorisation

Illustration 1. Création d'une propriété

Illustration 1. Création d'une propriété

Pour commencer le processus de catégorisation manuelle, il faut, au préalable, créer une propriété. Dans le menu de SATO à gauche, choisissons Propriété, ensuite, Définir et puis Sans héritage. On donnera un nom à la propriété (champ 2). Pour cet exemple, nous utiliserons une propriété à laquelle nous donnerons le nom nomcategorie. On choisit ensuite (champ 2) le type de propriété (libre, entière ou symbolique). Rappelons que la propriété libre prendra comme valeur une chaîne de caractères ne dépassant pas 255 caractères. La propriété entière prendre pour valeur un nombre positif ou nul. Finalement, la propriété symbolique prendra un ou plusieurs symboles appartenant à une liste fermée énumérée au champ 4. Dans le champ 3, correspondant à la portée de la propriété, on sélectionne Lexique pour indiquer que la propriété s'applique aux formes lexicales.


2. Accès au menu de catégorisation

Illustration 2. Affichage du lexique

Illustration 2. Affichage du lexique

Ensuite, on accède au lexique de SATO : dans le menu de SATO à gauche, choisissons Lexique et puis Afficher dans le menu qui apparaît dans la fenêtre centrale. Dans la fenêtre centrale, cliquons sur la forme à catégoriser afin d'accéder au menu de catégorisation dans la fenêtre du dessous.



Illustration 3. Affichage du lexique avec accès au menu de catégorisation

Illustration 3. Affichage du lexique avec accès au menu de catégorisation

3. Usage du KWIC

Illustration 4. Affichage des contextes du lexèmes par le KWIC

Illustration 4. Affichage des contextes du lexème cliqué (KWIC)

Dans le menu de catégorisation, le lien KWIC (keyword in context) permet d'accéder aux occurrences de cette forme lexicale dans le texte. On peut y retourner en tout temps afin de vérifier la justesse de la catégorisation.


4. Choix de la propriété

Illustration 5. Accès à la catégorisation dans le menu de catégorisation

Illustration 5. Accès à la catégorisation dans le menu de catégorisation

Nous allons maintenant utiliser le lien catégorisation de la section gauche du menu de catégorisation. SATO nous demande la propriété à laquelle nous voulons attribuer une valeur pour cette forme lexicale.



Illustration 6. Choix de la propriété

Illustration 6. Choix de la propriété

Nous allons choisir dans le menu déroulant la propriété nomcategorie (correspondant au nom de la propriété qui a été été créée à l'étape 1). On clique sur le bouton Accepter.


5. Choix de l'opérateur

Illustration 7. Choix de l'opérateur

Illustration 7. Choix de l'opérateur

SATO nous demande l'opérateur à utiliser dans cette catégorisation. Nous utiliserons + pour ajouter une valeur à cette propriété, et - pour en retirer une (= est utilisée pour remplacer la valeur existante). On clique sur le bouton Accepter.


6. Choix de la valeur

Illustration 8. Choix de la valeur

Illustration 8. Choix de la valeur

Nous allons attribuer au lexème la valeur désirée. Dans notre cas, nous lui donnerons la valeur plein. On clique sur le bouton Accepter.


7. Affichage des caractéristiques

Illustration 9. Affichage des caractéristiques du lexème

Illustration 9. Affichage des caractéristiques du lexème

SATO affiche maintenant les caractéristiques de la forme lexicale. Dans le cadre blanc du milieu, la ligne qui porte le nom de la catégorie indique la valeur attribuée à celle-ci. La ligne * nomcategorie= indique la valeur  plein.

Dans le cas où cette ligne indiquerait plus d'une valeur et qu'on voudrait enlever un des symboles attribués, on pourra le retirer en reprenant la procédure de catégorisation manuelle à l'étape 4 et en choisissant l'opérateur -.


8. Affichage du lexique

Illustration 10. Affichage du lexique avec prise en compte de la nouvelle valeur

Illustration 10. Affichage du lexique avec prise en compte de la nouvelle valeur (voir mot: "rivière")

Si l'on affichage à nouveau le lexique, l'on peut voir que la colonne à gauche du lexème, celle qui porte le nom de la catégorie, indique la valeur attribuée.


9. Autres choix

Illustration 11. Raccourci de catégorisation

Illustration 11. Raccourci de catégorisation

Si on veut catégoriser plusieurs mots, il est possible de répéter rapidement la dernière procédure de catégorisation effectuée (telle que décrite dans les étapes 4 à 6) en cliquant sur le lien qui commence par = valeur. Ce lien permet de procéder à la dernière catégorisation manuelle par exemple: = valeur nomcategorie +plein en un seul clic. Il est aussi possible de définir d'autres touches qui agiront comme raccourcis de catégorisation. Pour la procédure, voir la commande Poste Touche dans le Manuel de référence.