Table des matières | Définitions SATO 4.4, Manuel de référence (chapitre ajouté en novembre 2009)
Sous-texte avec un filtre (pas-à-pas)
Les sous-textes sont des sous-ensembles de l'ensemble des mots (occurrences) du corpus. Il peut s'agir, par exemple, d'un chapitre ou d'un document en particulier ou même encore de l'ensemble des interventions d'un locuteur ou de l'ensemble des mots ayant reçus une valeur pour une propriété donnée. Lorsqu'un sous-texte est activé, toutes les commandes subséquentes portant sur le texte s'appliquent à ce sous-texte uniquement plutôt qu'à l'ensemble du corpus. Il est possible, au moment de la création d'un sous-texte, de dénombrer les fréquences des formes lexicales présentes dans le sous-texte en utilisant une propriété lexicale associée au sous-texte. Il est entendu qu'un seul sous-texte peut être actif à un moment donné. Il est aussi possible de rappeler un sous-texte ayant déjà été actif.

Ce chapitre du manuel propose une description, illustrée étape par étape, des opérations techniques à effectuer pour procéder à la création d'un sous-texte. Il y a plusieurs manières de définir un sous-texte. En général, on définit un sous-texte à partir d'un filtre ou de contextes préalablement construits. Ce chapitre présente la création d'un sous-texte à partir de filtres. Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web, ainsi que les définitions de lexique et de propriété. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence.

1. Choix du formulaire

Illustration 1. Définition d'un sous-texte avec filtre

Illustration 1. Choix du formulaire

Pour commencer le processus de création d'un sous-texte avec filtre, dans le menu de SATO à gauche de l'écran, nous choisissons Texte, ensuite, Caractériser et puis Sous-texte tel que présenté dans l'illustration 1.


2. Définition d'un sous-texte avec filtre

Illustration 2. Définition d'un sous-texte avec filtre

Illustration 2. Définition d'un sous-texte avec filtre

Dans le formulaire présenté dans l'illustration 2, on coche l'option Filtre (indiquée sur l'illustration par le point 1). Cette option est cochée par défaut par SATO. Ensuite, on clique sur le bouton Continuer (indiqué sur l'illustration par le point 2).


3. Choix du filtre, du nom du sous-texte et du lexique associé

En prenant l'exemple du corpus public dit du "Discours constitutionnel canadien" (DCC), nous allons créer un sous-texte pour toutes les allocutions émises par les représentants du Québec. Dans ce corpus, on trouve toutes les déclarations des représentants des gouvernements fédéraux et provinciaux entre 1941 et 1987 lors des différentes rondes de discussion portant sur la constitution canadienne. Pour identifier les déclarations des représentants du Québec, nous utiliserons la propriété locuteur dont les valeurs ont été préalablement attribuées aux diverses interventions.

NOTE: Dans le DCC, la propriété locuteur contient des informations sur les représentants qui se sont exprimés lors des conférences portant sur la constitution. Ainsi, selon la convention utilisée par les chercheurs ayant constitué le corpus DCC, on retrouve notamment les valeurs suivantes de la propriété locuteur.

Dans le formulaire de définition d'un sous-texte (point 1 de l'illustration 3), nous utilisons le filtre $*locuteur=qué$ pour sélectionner les mots du sous-texte. Le filtre se lit comme suit : tous les mots ("$") pour lesquels la propriété locuteur ("*locuteur") a une valeur qui commence par les caractères qué ("=qué$"). Ce filtre va donc sélectionner les interventions de Bourassa, Duplessis ou tout autre représentant du Québec identifié selon le protocole décrit.

Illustration 3. Choix du filtre, du nom du sous-texte et du sous-lexique

Illustration 3. Choix du filtre, du nom du sous-texte et du sous-lexique

Ensuite, dans le champ donnant le nom du sous-texte (point 2), on entre ReprésQuéb, ou toute autre suite de caractères qui permettra un rappel aisé des caractéristiques du sous-texte créé.

NOTE: Il est recommandé d'être précis dans la nomenclature. Dans le choix d'un nom pour le sous-texte, la question à se poser est la suivante : « est-ce que le nom ReprésQuéb est suffisamment précis pour que tous les membres de l'équipe de recherche comprennent facilement qu'il s'agit d'un sous-texte contenant les allocutions des représentants du Québec? » Par ailleurs, on notera deux points supplémentaires.
  1. Si on utilise les guillemets, il est possible de mettre un espace dans le nom du sous-texte. Par exemple: "Repr Qué". Mais, il faut savoir que les guillemets devront alors être toujours utilisés pour le rappel du sous-texte.
  2. D'un autre côté, pour faciliter l'affichage dans l'interface SATO, il est préférable que les noms des sous-textes soient courts (10 caractères ou moins).

Lors de la définition d'un sous-texte, il est possible d'utiliser une propriété lexicale entière pour conserver le décompte des occurrences des formes lexicales présentes dans le sous-texte. Dans l'affichage du lexique, on aura donc une colonne de plus qui contiendra le nombre de fois qu'une forme lexicale est utilisée dans le sous-texte. Dans notre exemple, il s'agira du vocabulaire utilisé par les représentants du Québec.

Le formulaire nous demande de choisir entre trois options pour le lexique associé au sous-texte : Lexique, Nouveau-lexique, Sans lexique. L'option Lexique permet de choisir une propriété lexicale numérique pré-existante dans la liste des propriétés disponibles. L'option Nouveau-lexique permet de créer une nouvelle propriété lexicale dont on donnera le nom dans le champ adjacent. L'option Sans lexique fera en sorte que le décompte des occurrences des formes lexicales dans le sous-texte ne sera pas calculé.

Dans notre exemple, nous choisissons de créer une nouvelle propriété lexicale qu'on nommera LxReprQc. Le nom débute par les deux lettres Lx pour indiquer explicitement qu'il s'agit d'une propriété lexicale. Dans le suite du nom, ReprQc permet facilement de se rappeler qu'il s'agit ici des représentants du Québec. En moins de dix caractères, ce nom contient les informations principales : type de propriété ("Lx") et contenu (représentants du Québec "ReprQc").

Pour terminer la commande, on clique sur le bouton Soumettre au bas du formulaire.

NOTE: Toute propriété existante dans un corpus donné, quelle soit à portée textuelle ou lexicale, pourra être utilisée pour le filtrage. On peut également créer un sous-texte à partir d'un filtre de caractères. Ainsi, par exemple, on pourrait créer un sous-texte contenant tous les mots commençant par la lettre a en indiquant a$ dans le case réservée au filtre (point 1).

4. Affichage du résultat

Illustration 4. Affichage de la commande et du nombre de mots dans le sous-texte

Illustration 4. Affichage de la commande et du nombre de mots dans le sous-texte

Après avoir cliqué sur le bouton Soumettre (tel que décrit dans la section précédente), SATO affiche la page de résultat. Comme présenté dans l'illustration 4, SATO répète la commande: TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*locuteur=qué$ "ReprésQuéb" nouveau-lexique LxReprQc.

À la ligne suivante, SATO indique le nombre de mots contenus dans le sous-texte (soit 38541). Ici, cela veut dire que dans le corpus du "Discours constitutionnel canadien", les représentants du Québec ont prononcé près de 40 000 mots lors de leurs interventions (en incluant la ponctuation).


5. Affichage du sous-texte

Maintenant que le sous-texte a été créé, il est automatiquement activé comme sous-texte courant. Les commandes qui concernent le texte porteront donc maintenant sur le sous-texte qui vient d'être créé. Les deux opérations suivantes illustrent deux manières d'utiliser le sous-texte.

Illustration 5. Affichage du sous-texte

Illustration 5. Affichage du sous-texte

Affichons le texte grâce à la commande Texte Afficher $. Pour composer la commande à l'aide des formulaires, il s'agit de cliquer sur le lien Texte dans le menu de gauche de l'écran. Ensuite, on clique sur le lien Afficher dans le formulaire qui s'est ouvert à droite de l'écran. On indique d'afficher tout ($) dans le champ filtre et on soumet la commande en cliquant sur le bouton Soumettre. SATO affiche par défaut le sous-texte des allocutions des représentants du Québec plutôt que l'ensemble du corpus. L'illustration 5 présente le résultat de cette opération qui atteste l'effet du sous-texte avec filtre. Ici, la première intervention d'un représentant du Québec dans le "Discours constitutionnel canadien" est celle d'Adélard Godbout en 1941 alors qu'il était dans son second mandat comme Premier ministre du Québec.

Illustration 6. Affichage du sous-lexique

Illustration 6. Affichage du lexique du sous-texte

SATO permet également l'affichage d'un partie du lexique associé au sous-texte. Nous demandons à SATO d'afficher les mots de plus de deux lettres qui seront triés en ordre décroissant d'occurrence des lexèmes dans le sous-texte des représentants du Québec grâce à la commande: Lexique Afficher $*longueur>2*LxReprQc>0 tri LxReprQc. On peut composer la commande en utilisant les formulaires : on clique sur le lien Lexique dans le menu de gauche de l'écran; ensuite on clique sur le lien Afficher dans le formulaire de droite; on inscrit $*longueur>2*LxReprQc>0 dans le champ filtre; on sélectionne LxReprQc comme propriété de tri et on clique sur le bouton Soumettre.

L'illustration 6 présente le résultat de cette opération en commençant par les fréquences les plus élevées. On notera que le filtre utilisé dans l'illustration n'inclut pas la contrainte *LxReprQc>0, ce qui ne change rien ici puisque seules les fréquences les plus élevées sont reproduites. On remarquera aussi que les représentants du Québec sur-utilisent le mot Québec (LxReprQc=165 / Fréqtot=335), mais sous-utilisent les mots provinces (128/1424) et Canada (116/1507).


6. Rappel du sous-texte

Le sous-texte reste actif à moins que l'on ait effectué une des opérations suivantes :

  1. On a spécificié à SATO qu'il fallait travailler avec l'ensemble du texte (Texte Caractériser Sous-Texte Tout)
  2. On a créé un nouveau sous-texte
  3. On a quitté la session

Une fois qu'un sous-texte a été créé, il est possible de le rappeler en tout temps par l'opération suivante Texte Caractériser Sous-Texte Rappel (cf. Illustration 1) et ensuite, on sélectionnera dans la liste le nom d'un sous-texte créé au préalable (cf. Illustration 7). Pour sauvegarder les sous-textes pour une prochaine session, il faudra quitter SATO avec sauvegarde.

Illustration 7. Rappel d'un sous-texte

Illustration 7. Rappel d'un sous-texte