Table des matières | Définitions SATO 4.4, Manuel de référence (février 2010)
Analyseur Participation (pas-à-pas)

L'analyseur participation permet de mesurer l'utilisation relative d'un ensemble de mots dans le corpus entier ou des parties du corpus (sous-textes). L'analyseur produit divers indices numériques pour évaluer la participation de ces mots à l'ensemble du corpus ou à des sous-textes déjà constitués.

Comme c'est la règle en SATO, les mots dont on voudra mesurer la participation, sont définis par un filtre de sélection. Si ce filtre ne contient que des contraintes lexicales, par exemple sur les caractères composant les mots ou sur des valeurs de propriétés lexicales, l'analyseur n'aura pas besoin de parcourir l'ensemble du texte. Il lui suffira de consulter les fréquences lexicales comptabilisées dans des propriétés entières. Pour le corpus entier, on dispose déjà de la propriété Fréqtot. Pour les sous-textes existants, on aura les propriétés lexicales définies par l'utilisateur et qui auront été utilisées pour compter les mots lors de la création des sous-textes (commande Texte caractériser sous-texte). Si le filtre fait référence à une propriété textuelle, donc une propriété qui affecte chacune des occurrences en contexte, l'analyseur devra parcourir l'ensemble du corpus ou du sous-texte courant.

L'analyseur participation est un analyseur complémentaire à l'analyseur distance. Tout comme l'analyseur distance, il permet une analyse contrastive. Cependant, alors que Distance ramène plusieurs mots ou catégories de mots qui distinguent deux sous-textes, Participation compare plusieurs sous-textes pour un ensemble donné de mots. Distance ne fait pas de tests d'hypothèses statistiques et s'utilise généralement en phase exploratoire. Participation effectue un test de fréquence permettant d'évaluer si la fréquence d'utilisation d'un ensemble de mots dans une partie du corpus s'écarte significativement de sa fréquence dans l'ensemble du corpus. L'analyseur Participation est donc de nature plus quantitative en mettant l'emphase sur les comparaisons de nombres de formes, nombres de mots et leurs proportions dans des parties du corpus.

Ce guide propose une description, illustrée pas-à-pas, des opérations techniques à effectuer pour procéder à l'analyse de la participation. Dans ce tutoriel, nous assumons que plusieurs sous-textes ont déjà été créés. Les étapes de création de sous-textes sont illustrées notamment dans le tutoriel Sous-texte avec un filtre (pas-à-pas). Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence.


1. Choix du formulaire

Dans cet exemple, nous allons appliquer l'analyseur participation pour mesurer la proportion occupée par un mot ou une catégorie dans plusieurs ensembles textuels. Cette illustration présume que nous avons déjà créé au moins deux sous-textes dans notre corpus et que nous avons conservé dans des propriétés lexicales entières le nombre d'occurrences des mots présents dans ces sous-textes. Pour plus d'information sur cette opération, on pourra consulter le tutoriel Sous-texte avec un filtre (pas-à-pas).

Pour illustrer le fonctionnement de l'analyseur participation, nous ferons appel au corpus public dit du Discours constitutionnel canadien (DCC), qui contient les transcriptions de rondes de discussion tenues entre 1941 et 1987 portant sur la constitution canadienne. Dans ce corpus, nous avons déjà créé plusieurs sous-textes correspondant, respectivement, aux allocutions des représentants du gouvernement fédéral, des gouvernements des provinces des Maritimes, ainsi que des représentants des Autochtones et des Inuits. Pour chacun de ces sous-textes, nous avons défini une propriété lexicale entière qui contient la fréquence des mots utilisés dans le sous-texte.

Nous allons mesurer l'utilisation du terme peuple par ces différents représentants. En effet, suite à l'application de l'analyseur distance, nous avions constaté que le terme peuple était particulièrement saillant dans les allocutions des représentants autochtones et inuits. L'application de l'analyseur participation nous permettra de mieux saisir comment se répartit l'utilisation de ce mot entre les allocutions des diverese catégories des diverese catégories de représentants. Nous savons déjà que ce mot est caractéristique des représentants autochtones et inuits, mais nous n'avons pas d'idée plus précise de sa participation aux déclarations des autres catégories d'intervenants.

En présumant que les sous-textes ont été créés, passons directement à l'analyse de la participation. Pour analyser la participation, dans le menu de SATO à gauche, nous choisissons Analyseur, ensuite, Participation et Appliquer tel que présenté dans l'illustration 1 ci-dessous.

Illustration 1. Choix du formulaire

Illustration 1. Choix du formulaire

2. Choix du filtre

Comme nous cherchons à déterminer la participation du terme peuple, nous entrons ce terme dans l'espace réservé au filtre, comme indiqué dans l'illustration 2 ci-dessous. Ensuite, nous cliquons sur le bouton Soumettre.

Illustration 2. Entrée du filtre

Illustration 2. Entrée du filtre

NOTE: Nous aurions également pu demander à SATO de tester la participation de peuple et peuples, auquel cas, on aurait choisi le filtre suivant: peupl(e,es). Cette possibilité de considérer un ensemble de mots, en utilisant la syntaxe du filtre, est en fait une décision d'analyse qui vise à valider l'hypothèse sur laquelle repose ce regroupement de termes. Dans notre exemple, une analyse préalable par l'analyseur distance avait montré que ces deux termes ont des saillances ou des répartitions différentes. On cherchera ici à mesurer spécifiquement la participation de peuple plutôt que celle des deux termes considérés comme une seule entité.

3. Choix des propriétés lexicales entières

Comme le filtre indiqué à l'étape précédente ne comporte aucune contraine sur les mots en contexte, l'analyseur pourra effectuer ses calculs directement sur les fréquences lexicales. SATO nous demande donc de choisir une ou plusieurs propriétés lexicales entières. En fait, SATO affiche les propriétés qui contiennent, présume-t-on, un décompte des mots présents dans le corpus entier et dans les sous-textes. Pour rappel, lorsque nous avions créé les sous-textes, nous avions demandé à SATO d'effectuer le décompte des occurrences dans une propriété lexicale. Ainsi, les propriétés ReprésAutoc, ReprésFédé, ReprésMarit et ReprésQuéb contiennent, respectivement, le décompte des occurences des allocutions des représentants autochtones et inuits, du gouvernement fédéral, des provinces maritimes et du Québec. Dans la liste proposée par SATO, nous choisirons ces quatre propriétés comme présenté dans l'illustration 3 ci-dessous. Ensuite, nous cliquons sur le bouton Accepter.

Illustration 3. Choix des sous-lexiques

Illustration 3. Choix des propriétés lexicales entières

4. Lecture et interprétation des résultats

Une fois l'analyseur participation appliqué, nous obtenons une page de résultats (cf. illustration 4). Dans l'illustration, nous avons identifié chaque colonne par un numéro afin d'en préciser la signification.

Illustration 4. Lecture et interprétation des résultats

Illustration 4. Lecture et interprétation des résultats