Corpus Message d'amour : analyse exploratoire

(François Daoust, présentation au service ATO, 20 avril 1999)

Bienvenue au
Concours Message d'Amour

(La chanteuse Mitsou, «marraine» du concours)

Table des matières

Contexte
Préparation des données
Analyse descriptive
Éléments de conclusion

Contexte

Le corpus Message d'amour a été constitué dans le cadre du concours MESSAGE mais sage D'AMOUR, une recherche-action sur les MTS et le sida chez les jeunes. Ce concours, lancé par le Mouvement Jean-Boudreau et le Centre de santé publique de Québec, s'adressait aux jeunes de 14 à 25 ans à travers le Québec.

Présidé par Christian Fortin, m.d. mph, responsable du Groupe de recherche en santé publique au Centre de recherche du Centre hospitalier de l'Université Laval, le Mouvement Jean-Boudreau est une association à but non lucratif et à caractère humanitaire, qui regroupe chercheurs, médecins et sociologues ayant pour but d'influencer les jeunes de façon à induire des changements déterminants quant à leurs comportements sur le plan sexuel.

Le communiqué émis lors du lancement du lancement du concours présente ainsi les objectifs de Message mais sage d'amour.

Montréal, le 2 décembre 1996. - C'est en présence de centaines de jeunes et de l'artiste Mitsou qu'a été lancé aujourd'hui, à l'école F.A.C.E. de Montréal, le concours "Message mais sage d'amour". L'objectif du concours est de susciter une réflexion et une prise de conscience des jeunes à l'égard de la sexualité, des maladies transmissibles sexuellement et du sida. Si "l'amour, c'est sérieux... faut pas rire de ça", il faut donc en parler...

D'ici au 14 février 1997, jour de la Saint-Valentin, les jeunes de 14 à 25 ans sont invités à raconter, par écrit ou sur bande audio, des histoires décrivant les sentiments et les émotions que ces thèmes éveillent chez eux. Ces histoires, qui peuvent être élaborées individuellement ou en groupe, seront évaluées par un jury composé majoritairement de jeunes. Dans chaque région sociosanitaire, on retiendra une histoire chez les 14-17 ans, une chez les 1821 ans et une chez les 22-25 ans. Parmi toutes les histoires choisies, neuf seront primées à l'échelle nationale. Des prix d'une valeur totale de 55 000 $ seront remis aux gagnantes et aux gagnants, dont 15 000 $ en argent.

Ce concours a la particularité d'être jumelé à un projet de recherche mené conjointement par l'Université du Québec à Montréal et par les deux promoteurs du concours, le Centre de santé publique de Québec et le Mouvement Jean-Boudreau pour la prévention du sida. L'équipe de recherche analysera toutes les histoires reçues et vérifiera si une campagne de prévention élaborée, comme celle-ci, en fonction de la culture, du discours et des valeurs de référence de la jeunesse peut avoir plus de retombées qu'une campagne conçue par des adultes qui comprendraient mal l'univers des jeunes.

Les histoires gagnantes, fruits de l'expérience même des jeunes, seront adaptées sous forme de vidéoclips, de chansons ou de messages de prévention, dont la diffusion est prévue pour septembre 1997 dans les médias, dans le réseau scolaire, dans celui de la santé et dans le milieu de l'intervention communautaire.

Le concours profite de l'appui du ministère de l'Éducation, du ministère de la Santé et des Services sociaux et des commanditaires Glaxo-Wellcome, Ansell Canada, la Banque Scotia, Vidéotron et Cogeco.
(MONTRÉAL, 2 DÉCEMBRE 1996: LANCEMENT DU CONCOURS MESSAGE mais sage D'AMOUR)

Au début de 1998, au terme du projet de recherche, le service ATO de l'UQAM a pris entente avec le Dr. Fortin afin de réaliser une première étude du corpus intégral au moyen du logiciel SATO. En général, nous effectuons nos analyses en collaboration avec l'équipe de recherche qui en a défini la problématique. Dans ce cas-ci, comme le projet était terminé, nous avons dû procédé de façon autonome à partir des données brutes et de la seule information publique disponible sur le site Internet du concours. Dans les circonstances, nous avons donc procédé à une première analyse de caractère exploratoire visant à révéler les caractéristiques générales du corpus.

Préparation des données

Les données du projet Message d'amour comprennent deux volets : un volet textuel et un volet quantitatif.

Le volet textuel consiste en un ensemble de textes en français et en anglais saisis sur traitement de texte. Chaque texte correspond à la contribution d'un partipant au concours Message d'amour. Les textes nous sont parvenus groupés dans quelques fichiers sous divers formats. Nous les avons normalisés et exportés en format texte (Isolatin). La notice sur la codification originale du document (manuscrit, cassette audio, etc.) a été transformée en commentaire SATO pour la distinguer du texte plein. Certains des fichiers de données contenaient des anomalies qui ont entraîné la suppression de quelques textes. Le corpus épuré et mis en forme pour SATO contient finalement 632 textes totalisant 547067 mots et ponctuations.

Le volet quantitatif nous est parvenue sous la forme d'un tableau Excel dont chaque ligne correspond à un texte alors que chaque colonne contient des données codées sur les textes et leur auteur.

Les lignes du tableau Excel ne correspondaient plus aux textes du corpus épuré. Il a donc fallu refaire l'apariement entre les données quantitatives et le texte plein. Il a fallu vérifier les entrées une par une pour ne conserver du tableau que les 632 lignes correspondant aux bons textes. Une fois cet apariement réalisé, la première étape a consisté à associer à chacun des textes la donnée du tableau qui identifiait la langue du texte. En couplant cette variable avec une analyse du vocabulaire des textes, on a pu procéder à une validation des données pour corriger l'appariement des textes avec les lignes de données. Cela a aussi été l'occasion de découvrir que le tableau de données comportait des erreurs d'identification de la langue. Ces erreurs ont été corrigées. Finalement, une deuxième mise en forme du texte a permis de distinguer le lexique des textes en anglais du lexique des textes en français.

Il était donc maintenant possible d'apparier d'autres données du tableau avec chacun des textes du corpus de façon à procéder à une analyse différentielle des textes selon leur profil sociologique. Le tableau de données comporte beaucoup de dimensions. À défaut d'indications précises sur l'intérêt des diverses variables, on s'est concentré sur les variables les plus générales: le sexe, le groupe d'âge et la région d'habitation.

Analyse descriptive

Ventilation selon la langue


Nombre de lexèmes sélectionnés: 25380

Fréquence cumulée: 547067



Lexèmes  %Lex     Occurr.  %Occ.    Alphabet 

21539    84.87%  510607    93.34%  fr

 3841    15.13%   36460     6.66%  en

On remarque que le corpus est en français à plus de 93%. Étant donné que l'analyse lexicale doit s'appliquer à des lexiques de la même langue, la constitution des sous-textes et les analyses lexicométriques ne seront appliquées qu'aux textes en français. Il est à noter qu'on peut aussi réaliser des analyses catégorielles sur des lexiques multilingues étiquetés.

Ventilation selon le sexe


Nombre de lexèmes sélectionnés: 25380

Nombre d'occurrences sélectionnés: 547067



Occurr.  %Occ.    Sexe

450261    82.30%  0 (filles)

 96806    17.70%  1 (garçons)

Les textes rédigés par les filles représentent plus de 82% du corpus. Il est possible que cet écart donne un poids plus important au vocabulaire employé par les garçons. Ce biais ne devrait cependant pas être trop important car le sous-corpus associé aux garçons est quand même assez volumineux.

Ventilation selon le groupe d'âge


Nombre de lexèmes sélectionnés: 25380

Nombre d'occurrences sélectionnés: 547067



Occurr.  %Occ.    GrAge

393457    71.92%  1 (14-17 ans)

120217    21.97%  2 (18-21 ans)

 33393     6.10%  3 (22-25 ans)

Ici aussi, on note une stratification du corpus en parties très inégales. Le sous-corpus associé au groupe d'âge codé «3» est moins susceptible d'avoir atteint la saturation lexicale.

Ventilation selon le code de région


Nombre de lexèmes sélectionnés: 25380

Nombre d'occurrences sélectionnés: 547067



Occurr.  %Occ.    Région

129384    23.65%  3

 82455    15.07%  16

 75845    13.86%  6

 37254     6.81%  12

 31185     5.70%  2

 30306     5.54%  14

 28130     5.14%  15

 27834     5.09%  4

 22007     4.02%  1

 14733     2.69%  13

 13273     2.43%  7

 11745     2.15%  9

 11451     2.09%  5

 11185     2.04%  11

  7170     1.31%  8

  6460     1.18%  17

  5127     0.94%  10

  1523     0.28%  99

Les trois régions codées «3», «16» et «6» font plus de 50% du corpus alors que les 15 autres se partagent le reste. Il est certain que la statistique lexicale appliquée aux régions les moins représentées risque d'être peu significative.

Ventilation selon la catégorie grammaticale des lexèmes français


Nombre de lexèmes sélectionnés: 21539

Fréquence cumulée: 510607



Lexèmes  %Lex     Occurr.  %Occ.    Gramr 

  6645    30.85%  139736    27.37%  Nomcom

  6297    29.24%   74295    14.55%  Vconj

  4180    19.41%   45283     8.87%  Adjqua

  3706    17.21%   12992     2.54%  nil

  2630    12.21%   26442     5.18%  Vparpas

  1239     5.75%   18701     3.66%  Vinf

   554     2.57%    3399     0.67%  Vparpré

   395     1.83%   48629     9.52%  Adv

   260     1.21%   13377     2.62%  Adjnum

   117     0.54%    1161     0.23%  Rés

    53     0.25%   51831    10.15%  Pré

    48     0.22%   41566     8.14%  Con

    31     0.14%   12432     2.43%  Adjpos

    31     0.14%   23336     4.57%  Proind

    30     0.14%    7894     1.55%  Adjind

    30     0.14%    1124     0.22%  Int

    21     0.10%   72898    14.28%  Proper

    19     0.09%    1061     0.21%  Abr

    16     0.07%   10025     1.96%  Dél

    13     0.06%   10605     2.08%  Proint

    10     0.05%     116     0.02%  Adjrel

    10     0.05%    8763     1.72%  Prodém

     9     0.04%   16075     3.15%  Proréf

     8     0.04%   33544     6.57%  Artdéf

     7     0.03%   58492    11.46%  Pon

     6     0.03%   15353     3.01%  Prorel

     5     0.02%      40     0.01%  Mor

     4     0.02%    5234     1.03%  Adjdém

     4     0.02%     204     0.04%  Adjint

     3     0.01%   12281     2.41%  Artind

     2     0.01%    4498     0.88%  Artpar

     1     0.00%     115     0.02%  Adjexc

     1     0.00%     295     0.06%  Proexc

Le tableau précédent nous indique qu'il y a un nombre assez élevé de mots qui ne sont pas reconnus par le dictionnaire. Il peut s'agir de québécismes ou de termes techniques, de fautes d'orthographe ou de noms propres. Une lecture du lexique des mots non reconnus nous a permis de catégoriser manuellement les québécismes et les termes techniques, comme des mots associés à des maladies. On a aussi constaté qu'il y a beaucoup de noms propres, ce qui est normal dans le cas de récits. Il y a aussi bon nombre d'erreurs orthographiques, notamment des fautes d'accents qui sont peut-être causées par des problèmes de conversion de fichiers. Dans une analyse plus poussée, il serait utile de corriger les fautes les plus fréquentes, ce qui est assez facile avec SATO.

Dans l'analyse lexicométrique de distance, nous allons exclure les mots non reconnus avec l'objectif en fait d'exclure les noms propres qui sont spécifiques à des récits et qui ne doivent pas être pris en compte dans la différenciation lexicale.

Après avoir catégorisé manuellement certains mots non reconnus, on obtient une correction mineure à la distribution des catégories grammaticales, comme en fait foi le tableau suivant.


Description de la propriétés Gramr



Filtre: $*alphabet=fr

Nombre de lexèmes sélectionnés: 21539 / 25380 (84.87 %)

Fréqtot cumulée: 510607 / 547067 (93.34 %)



Lexèmes     %Lex  Occ.        %Occ  Gramr

  6661    30.93%  140405    27.50%  Nomcom

  6298    29.24%   74307    14.55%  Vconj

  4187    19.44%   45332     8.88%  Adjqua

  3679    17.08%   12220     2.39%  nil

  2630    12.21%   26442     5.18%  Vparpas

  1239     5.75%   18701     3.66%  Vinf

   554     2.57%    3399     0.67%  Vparpré

   396     1.84%   48636     9.53%  Adv

   260     1.21%   13377     2.62%  Adjnum

   117     0.54%    1161     0.23%  Rés

    53     0.25%   51831    10.15%  Pré

    48     0.22%   41566     8.14%  Con

    32     0.15%    1159     0.23%  Int

    31     0.14%   12432     2.43%  Adjpos

    31     0.14%   23336     4.57%  Proind

    30     0.14%    7894     1.55%  Adjind

    21     0.10%   72898    14.28%  Proper

    19     0.09%    1061     0.21%  Abr

    16     0.07%   10025     1.96%  Dél

    13     0.06%   10605     2.08%  Proint

    10     0.05%     116     0.02%  Adjrel

    10     0.05%    8763     1.72%  Prodém

     9     0.04%   16075     3.15%  Proréf

     8     0.04%   33544     6.57%  Artdéf

     7     0.03%   58492    11.46%  Pon

     6     0.03%   15353     3.01%  Prorel

     5     0.02%      40     0.01%  Mor

     4     0.02%    5234     1.03%  Adjdém

     4     0.02%     204     0.04%  Adjint

     3     0.01%   12281     2.41%  Artind

     2     0.01%    4498     0.88%  Artpar

     1     0.00%     115     0.02%  Adjexc

     1     0.00%     295     0.06%  Proexc

Analyse du vocabulaire des garçons et des filles


Analyseur DISTANCE



Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2



distance: 4.39   distance/dimension: 0.00



liste des unités contribuant le plus à la distance:



               *

 Fréqtot   Sexe0   Sexe1  explique  cumul

    0.01    0.00    0.06    1.09    1.09  plan

    0.30    0.27    0.51    1.00    2.09  vous

    0.13    0.11    0.25    0.87    2.97  (

    0.14    0.12    0.27    0.82    3.79  )

    0.03    0.02    0.08    0.53    4.32  jean

    0.00    0.00    0.02    0.48    4.80  caméra

    0.00    0.00    0.02    0.44    5.24  am

    0.00    0.00    0.02    0.44    5.68  gardien

    1.49    1.66    1.31    0.43    6.11  je *

    0.00    0.00    0.02    0.41    6.52  maria

    0.03    0.02    0.07    0.40    6.92  voix

    0.75    0.85    0.61    0.39    7.31  j' *

    0.55    0.63    0.43    0.37    7.68  me *

    0.00    0.00    0.01    0.37    8.05  q

    0.02    0.01    0.04    0.31    8.36  vos

    0.00    0.00    0.02    0.31    8.67  changement

    0.00    0.00    0.01    0.30    8.97  colibri

    0.00    0.00    0.01    0.29    9.26  cochon

    0.00    0.00    0.01    0.26    9.51  chante

    0.00    0.00    0.01    0.26    9.77  rapproché

    0.40    0.46    0.32    0.24   10.01  m' *

    0.00    0.00    0.01    0.23   10.24  casino

    0.00    0.00    0.01    0.23   10.48  profil

    0.05    0.05    0.10    0.22   10.70  marie

    0.00    0.00    0.01    0.22   10.92  dés

    0.02    0.02    0.05    0.21   11.13  risque

    0.00    0.00    0.01    0.21   11.35  taux

    0.00    0.00    0.02    0.21   11.55  ailes

    0.00    0.00    0.01    0.20   11.75  do

    0.00    0.00    0.01    0.20   11.95  gymnase

    0.00    0.00    0.01    0.20   12.15  lancez

    0.00    0.00    0.01    0.20   12.35  ml

    0.00    0.00    0.01    0.20   12.55  obtenez

    0.88    0.98    0.80    0.20   12.75  pas *

    4.73    5.14    4.72    0.19   12.94  . *

    0.31    0.32    0.42    0.19   13.13  au

    0.00    0.00    0.01    0.19   13.33  humanité

    0.00    0.00    0.01    0.19   13.52  déplacement

    0.00    0.00    0.01    0.19   13.71  g

    0.00    0.00    0.01    0.18   13.89  chair

    1.03    1.07    1.26    0.18   14.07  -

    0.02    0.02    0.04    0.17   14.24  rendez

    0.01    0.00    0.02    0.17   14.41  gang

    0.47    0.53    0.41    0.17   14.58  ai *

    0.00    0.00    0.01    0.17   14.75  apparence

    0.00    0.00    0.01    0.17   14.92  ajoutez

    0.00    0.00    0.01    0.17   15.08  char

    0.00    0.00    0.01    0.17   15.25  entrez

    0.00    0.00    0.01    0.17   15.41  orchidée

    0.00    0.00    0.01    0.17   15.58  ré

L'astérisque renvoie au vocabulaire caractéristique du sexe codé «0» (filles). Les mots non marqués sont caractéristiques du vocabulaire utilisé par le sexe codé «1» (garçons). La liste est triée en donnant priorité aux mots qui distinguent le plus les deux sous-textes. Ce qui frappe d'abord, c'est la position des locuteurs. Les textes rédigés par les filles prennent une position plus personnelle. On y trouve une dominance de la première personne du singulier («je», «j'», «me», «m'» et «ai). À l'inverse, les garçons privilégient «vous» et «vos». Il est à remarquer que nous n'avons pas bloqué les mots composés, ce qu'il aurait été possible de faire. La présence de «rendez» et du trait d'union «-» suggère aussi que les garçons utilisent de façon particulière l'expression «rendez-vous»! Mais on trouve aussi beaucoup d'autres verbes à la deuxième personne du pluriel qui suggèrent l'emploi du «vous» à l'indicatif présent ou à l'impératif présent. Il faudrait confirmer en lisant les contextes mais, visiblement, le ton utilisé par les garçons est beaucoup moins intimiste que celui utilisé par les filles.

On note d'autres indications stylistiques qui pourraient être significative. Pourquoi les filles utilisent-elles davantage le «pas»? Il s'agit probablement de l'adverbe de négation. Les garçons utilisent beaucoup les parenthèses. Il peut s'agir d'un tic d'auteur mais ça peut aussi être un indice d'une plus grande présence de notes techiques. Il faudrait vérifier les contextes.

Autrement, la plupart des termes pleins distinctivement utilisés le sont par les garçons. On trouve certains noms communs homographes avec des noms propres («jean», «maria», «marie»). Si nous avions appliqué le scénario SATO de dépistage des noms propres, on aurait probablement éliminé ces mots. Sinon, on trouve «plan», «caméra», «am», «gardien», «voix», «changement», «colibri», «cochon», «casino», «profil», etc.

Analyse du vocabulaire des 14-17 ans


Analyseur DISTANCE



Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2



distance: 3.71   distance/dimension: 0.00

liste des unités contribuant le plus à la distance:



               *

 Fréqtot    Age1   ~Age1  explique  cumul

    4.73    5.13    3.91    2.30    2.30  . *

    1.03    1.21    0.66    2.14    4.44  - *

    4.30    4.56    3.77    1.05    5.49  , *

    1.49    1.63    1.21    0.88    6.37  je *

    1.04    1.15    0.82    0.74    7.11  elle *

    0.54    0.62    0.39    0.72    7.83  était *

    1.42    1.54    1.18    0.67    8.50  à *

    2.66    2.81    2.35    0.59    9.09  de *

    0.49    0.55    0.36    0.56    9.65  " *

    1.26    1.36    1.05    0.55   10.20  que *

    1.45    1.56    1.24    0.52   10.72  le *

    0.27    0.31    0.17    0.52   11.24  ils *

    0.30    0.34    0.20    0.52   11.75  vous *

    0.40    0.46    0.29    0.51   12.27  m' *

    1.13    1.22    0.95    0.49   12.75  il *

    0.50    0.55    0.38    0.44   13.20  lui *

    1.56    1.66    1.35    0.43   13.63  et *

    0.76    0.83    0.62    0.43   14.06  une *

    0.79    0.86    0.65    0.39   14.45  ne *

    0.01    0.00    0.03    0.37   14.82  plan

    0.55    0.61    0.45    0.32   15.14  me *

    0.00    0.00    0.01    0.32   15.46  magnolia

    0.10    0.12    0.05    0.30   15.77  tard *

    0.15    0.18    0.10    0.30   16.07  après *

    0.36    0.40    0.28    0.30   16.36  ? *

    1.01    1.08    0.88    0.28   16.65  un *

    1.13    1.20    0.99    0.28   16.93  l' *

    0.35    0.39    0.28    0.28   17.21  nous *

    0.75    0.81    0.64    0.27   17.48  qu' *

    0.63    0.68    0.53    0.26   17.74  pour *

    0.75    0.81    0.64    0.26   18.01  j' *

    0.88    0.94    0.76    0.26   18.26  pas *

    0.38    0.41    0.30    0.25   18.51  tout *

    1.54    1.61    1.38    0.25   18.77  la *

    0.53    0.58    0.44    0.25   19.02  n' *

    0.49    0.53    0.40    0.24   19.26  mais *

    0.55    0.60    0.46    0.24   19.49  plus *

    0.06    0.08    0.03    0.24   19.73  virus *

    0.38    0.41    0.31    0.22   19.95  son *

    0.07    0.09    0.04    0.21   20.16  étaient *

    0.13    0.15    0.09    0.21   20.36  car *

    0.43    0.46    0.35    0.21   20.57  tu *

    0.16    0.18    0.11    0.20   20.77  deux *

    0.05    0.07    0.03    0.20   20.97  marie *

    0.15    0.17    0.10    0.20   21.17  avais *

    0.11    0.13    0.07    0.20   21.36  étais *

    0.43    0.46    0.35    0.20   21.56  s' *

    0.04    0.06    0.02    0.20   21.75  école *

    0.10    0.12    0.07    0.20   21.95  mois *

    0.11    0.13    0.07    0.19   22.14  chez *

L'âge codé «1» correspond au groupe des 14-17ans. Dans cette analyse ~Age1 désigne le complément de Age1, donc le nombre total d'occurrences de chaque mot moins le nombre d'occurrences dans les textes appartenant au groupe des 14-17ans. Comme on l'a vu, le groupe des 14-17ans fait à lui seul 72% du corpus. On y voit clairement des différences stylistiques. Les phrases sont plus courtes (il y a plus de points). L'usage important du trait d'union est peut-être relié à l'usage du style direct (dialogues). On y trouve un usage important des pronoms personnels à toutes les personnes. On y utilise davantage le point d'interrogation et la négation («pas» et «ne»). En termes de mots pleins, on trouve «plan», «virus», «école»

Analyse du vocabulaire des 18-21 ans


Analyseur DISTANCE



Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2



distance: 3.76   distance/dimension: 0.00

liste des unités contribuant le plus à la distance:



               *

 Fréqtot    Age2   ~Age2  explique  cumul

    0.01    0.05    0.00    1.06    1.06  plan *

    0.40    0.56    0.36    0.66    1.72  ... *

    0.00    0.02    0.00    0.51    2.23  caméra *

    0.05    0.09    0.04    0.45    2.68  ta *

    1.03    0.83    1.08    0.44    3.12  -

    0.00    0.02    0.00    0.41    3.54  gardien *

    0.01    0.02    0.00    0.38    3.92  rose *

    0.00    0.01    0.00    0.36    4.28  benjamin *

    0.80    0.95    0.77    0.31    4.59  en *

    0.47    0.59    0.44    0.30    4.89  des *

    4.30    4.64    4.21    0.30    5.19  , *

    0.00    0.02    0.00    0.28    5.47  changement *

    2.66    2.91    2.59    0.27    5.74  de *

    0.36    0.45    0.34    0.24    5.97  on *

    0.07    0.11    0.06    0.23    6.21  ton *

    0.01    0.03    0.01    0.23    6.44  bar *

    0.35    0.43    0.33    0.23    6.67  : *

    0.00    0.01    0.00    0.22    6.89  argentin *

    0.00    0.01    0.00    0.22    7.11  joué *

    0.47    0.57    0.45    0.21    7.32  ai *

    0.29    0.36    0.27    0.21    7.53  ma *

    0.02    0.04    0.02    0.20    7.74  cas *

    0.35    0.43    0.33    0.20    7.94  du *

    0.05    0.08    0.05    0.20    8.14  homme *

    0.00    0.01    0.00    0.19    8.32  do *

    0.00    0.01    0.00    0.19    8.51  ml *

    0.00    0.01    0.00    0.19    8.70  originale *

    0.00    0.01    0.00    0.18    8.88  96 *

    0.00    0.01    0.00    0.18    9.06  déplacement *

    0.00    0.01    0.00    0.18    9.24  rapproché *

    0.03    0.05    0.02    0.17    9.40  voix *

    0.00    0.01    0.00    0.17    9.57  fût *

    0.00    0.01    0.00    0.17    9.74  étape *

    0.13    0.17    0.12    0.16    9.90  ( *

    0.01    0.02    0.00    0.16   10.05  herpès *

    0.00    0.00    0.00    0.16   10.21  guitare *

    0.00    0.00    0.00    0.16   10.37  messe *

    0.00    0.00    0.00    0.16   10.52  ré *

    0.00    0.00    0.00    0.16   10.68  vacciner *

    0.04    0.07    0.04    0.15   10.83  entre *

    0.51    0.60    0.49    0.15   10.98  c' *

    0.00    0.01    0.00    0.15   11.13  baisé *

    0.00    0.01    0.00    0.15   11.28  descend *

    0.00    0.01    0.00    0.15   11.42  fa *

    0.00    0.01    0.00    0.15   11.57  profil *

    0.00    0.01    0.00    0.15   11.72  teintes *

    0.00    0.01    0.00    0.15   11.87  puce *

    0.01    0.02    0.01    0.15   12.01  départ *

    0.15    0.20    0.14    0.15   12.16  t' *

    0.04    0.07    0.04    0.14   12.30  bon *

Le groupe des 18-21 ans représente 22% du corpus. On y note une utilisation plus prononcée du tutoiement («ta», «ton», «t'») et l'usage du pronom impersonnel «on». Aussi, on y voit beaucoup plus de mots pleins. Plusieurs semblent être associés au monde des arts (cinéma, musique, sorties) : «plan», «caméra», «changement», «argentin», «do,», «original», «voix», , «guitare», «profil», «teintes», «bar», «gardien». D'autres ont des connotations sexuelles: «herpès», «baisé».

Analyse du vocabulaire des 22-25 ans


Analyseur DISTANCE



Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2



distance: 6.66   distance/dimension: 0.00



liste des unités contribuant le plus à la distance:



               *

 Fréqtot    Age3   ~Age3  explique  cumul

    0.00    0.08    0.00    3.02    3.02  magnolia *

    0.00    0.03    0.00    1.05    4.07  colibri *

    0.00    0.03    0.00    1.04    5.12  pi *

    0.00    0.03    0.00    0.68    5.80  démon *

    0.00    0.04    0.00    0.65    6.45  ailes *

    0.01    0.07    0.01    0.64    7.09  partenaire *

    0.00    0.02    0.00    0.58    7.67  orchidée *

    0.61    0.98    0.59    0.57    8.24  a *

    0.00    0.01    0.00    0.47    8.70  gagnante *

    0.00    0.01    0.00    0.47    9.17  gono *

    0.00    0.01    0.00    0.47    9.63  parfums *

    0.00    0.02    0.00    0.43   10.07  individu *

    0.00    0.02    0.00    0.39   10.46  menant *

    0.95    1.33    0.93    0.39   10.85  est *

    0.00    0.01    0.00    0.36   11.21  buts *

    0.01    0.04    0.01    0.36   11.57  sexuel *

    0.00    0.03    0.00    0.35   11.92  chemins *

    0.00    0.01    0.00    0.35   12.27  abeilles *

    0.00    0.01    0.00    0.35   12.62  acteurs *

    0.00    0.01    0.00    0.35   12.97  administratives *

    0.00    0.01    0.00    0.35   13.32  pleut *

    0.00    0.01    0.00    0.35   13.67  possibilités *

    4.30    5.03    4.25    0.32   13.98  , *

    0.07    0.16    0.06    0.32   14.30  parce *

    0.00    0.02    0.00    0.29   14.59  miel *

    0.00    0.01    0.00    0.29   14.88  acceptation *

    0.00    0.01    0.00    0.29   15.17  sketch *

    0.01    0.05    0.01    0.28   15.45  connaître *

    1.54    1.94    1.51    0.27   15.73  la *

    0.00    0.02    0.00    0.26   15.98  papillons *

    0.00    0.01    0.00    0.25   16.23  auteure *

    0.00    0.01    0.00    0.25   16.48  créatures *

    0.00    0.01    0.00    0.25   16.73  dansent *

    0.00    0.01    0.00    0.25   16.98  lacs *

    0.00    0.01    0.00    0.25   17.23  légèreté *

    0.00    0.01    0.00    0.25   17.49  paysages *

    0.00    0.01    0.00    0.25   17.74  plate *

    0.00    0.01    0.00    0.25   17.99  répétition *

    0.00    0.01    0.00    0.25   18.24  vola *

    0.00    0.01    0.00    0.25   18.49  écoulement *

    0.02    0.06    0.02    0.25   18.73  condoms *

    0.00    0.01    0.00    0.24   18.98  condylômes *

    0.00    0.01    0.00    0.24   19.22  défaite *

    0.00    0.01    0.00    0.24   19.46  nouveauté *

    0.36    0.55    0.35    0.24   19.70  on *

    0.02    0.07    0.02    0.23   19.92  chum *

    0.03    0.07    0.02    0.22   20.15  ben *

    0.00    0.02    0.00    0.22   20.37  valeurs *

    0.02    0.05    0.01    0.22   20.59  parfois *

    0.47    0.68    0.46    0.22   20.81  des *

Le groupe des 22-25 ans est très petit. Il représente 6% du corpus. Plus un corpus est petit, plus les termes associés aux particularités du corpus sont susceptibles de prendre de l'importance. Ainsi, les mots «magnola», «colibri», «parfums», «orchidés», «ailes», «abeilles», «miel», «papillons»,«démons» sont probablement reliés à leur dominance dans quelques récits. Ils semblent faire partie d'une thématique narrative assez serrée. Donc, d'un côté on semble avoir une imagerie romantique et, secondairement, une thématique sexuelle avec beaucoup de termes associés aux MTS : «partenaire», «gono», «sexuel», «écoulement», «condoms», «condylomes». Il serait intéressants de vérifier si ces thématiques coexistent chez les mêmes auteurs ou, au contraire, s'ils distinguent les auteurs. Il y a des techniques SATO qui permettraient de voir cela, en plus de l'approche qualitative.

Comparaison entre le vocabulaire utilisé par la région 3 et le reste du corpus


Analyseur DISTANCE



Filtre: $*alphabet=fr*gramr~nil*freqtot>2



distance: 3.59   distance/dimension: 0.00



liste des unités contribuant le plus à la distance:



               *

 Fréqtot  Rég3   ~Rég3    explique  cumul

    0.00    0.02    0.00    0.69    0.69  jade *

    4.73    5.19    4.59    0.59    1.28  . *

    0.04    0.00    0.06    0.54    1.82  *

    2.66    2.96    2.56    0.46    2.28  de *

    0.00    0.02    0.00    0.44    2.72  am *

    0.28    0.37    0.25    0.39    3.11  amour *

    0.00    0.01    0.00    0.36    3.47  manuel *

    0.30    0.38    0.27    0.35    3.82  vous *

    0.01    0.02    0.00    0.35    4.17  décidèrent *

    0.00    0.01    0.00    0.34    4.51  taux *

    1.13    1.30    1.08    0.33    4.84  il *

    4.30    4.61    4.20    0.29    5.14  , *

    0.09    0.13    0.08    0.29    5.43  aller *

    0.00    0.01    0.00    0.28    5.71  q *

    0.00    0.01    0.00    0.26    5.97  g *

    0.00    0.01    0.00    0.26    6.22  maria *

    0.08    0.12    0.07    0.25    6.48  condom *

    0.43    0.51    0.40    0.23    6.70  tu *

    0.02    0.04    0.01    0.22    6.93  décida *

    0.02    0.03    0.01    0.22    7.15  / *

    0.48    0.39    0.51    0.22    7.37  !

    0.00    0.01    0.00    0.22    7.59  cochon *

    0.04    0.06    0.03    0.22    7.81  votre *

    0.00    0.01    0.00    0.21    8.02  équipe *

    0.55    0.64    0.53    0.20    8.21  plus *

    1.45    1.60    1.41    0.19    8.41  le *

    0.01    0.02    0.01    0.19    8.60  p *

    0.63    0.73    0.60    0.18    8.78  pour *

    0.00    0.01    0.00    0.18    8.96  78 *

    0.00    0.01    0.00    0.18    9.14  argentin *

    0.00    0.01    0.00    0.18    9.32  aujourd`hui *

    0.00    0.01    0.00    0.18    9.50  casino *

    0.00    0.01    0.00    0.18    9.68  cellule *

    0.00    0.01    0.00    0.18    9.86  football *

    0.04    0.06    0.03    0.18   10.04  protéger *

    0.10    0.13    0.08    0.17   10.20  tard *

    0.27    0.32    0.25    0.16   10.37  ils *

    1.01    1.12    0.98    0.16   10.53  un *

    0.12    0.16    0.11    0.16   10.69  toi *

    1.56    1.69    1.52    0.16   10.85  et *

    0.02    0.03    0.02    0.16   11.00  rendez *

    0.00    0.01    0.00    0.15   11.16  chair *

    0.50    0.57    0.47    0.15   11.31  lui *

    0.00    0.00    0.00    0.15   11.46  bêtes *

    0.00    0.00    0.00    0.15   11.62  lancez *

    0.00    0.00    0.00    0.15   11.77  notaire *

    0.00    0.00    0.00    0.15   11.93  obtenez *

    0.00    0.00    0.00    0.15   12.08  pendule *

    0.00    0.00    0.00    0.15   12.23  valentine *

    0.15    0.20    0.14    0.15   12.39  très *

La région 3 constitue 23.65% du corpus et compte 128888 occurrences de mots en français. Les phrases y sont plus courtes que dans le reste du Québec si on doit se fier à la plus grande utilisation du point. On y note une utilisation dominante du pronom «vous». et une absence significative du «!». Les mots pleins qui dominent sont : «jade», «amour», «manuel» (s'il ne s'agit pas du nom propre Manuel), «taux», «condon», «cochon», «équipe», «argentin», «casino», «cellule», «football».

Comparaison entre le vocabulaire utilisé par la région 16 et le reste du corpus


Analyseur DISTANCE



Filtre: $*alphabet=fr*gramr~nil*freqtot>2



distance: 4.08   distance/dimension: 0.00



liste des unités contribuant le plus à la distance:



               *

 Fréqtot Rég1    ~Rég1    explique  cumul

    0.01    0.05    0.00    1.84    1.84  ève *

    4.30    5.11    4.16    1.28    3.12  , *

    1.49    1.83    1.43    0.63    3.75  je *

    0.00    0.01    0.00    0.50    4.25  paragraphe *

    0.00    0.01    0.00    0.45    4.70  clémentine *

    0.00    0.01    0.00    0.45    5.15  colibri *

    0.35    0.49    0.33    0.44    5.59  mon *

    0.38    0.51    0.35    0.41    6.00  tout *

    0.00    0.01    0.00    0.35    6.35  maya *

    0.00    0.01    0.00    0.34    6.69  poignard *

    0.40    0.53    0.38    0.31    7.00  m' *

    0.35    0.24    0.37    0.26    7.25  :

    0.02    0.04    0.01    0.25    7.51  ah *

    0.00    0.01    0.00    0.25    7.75  orchidée *

    0.00    0.01    0.00    0.25    8.00  sinistres *

    0.00    0.01    0.00    0.25    8.25  miel *

    1.56    1.77    1.52    0.23    8.48  et *

    0.00    0.01    0.00    0.22    8.70  toit *

    0.00    0.01    0.00    0.21    8.91  donnent *

    0.00    0.00    0.00    0.20    9.11  entrepôt *

    0.00    0.00    0.00    0.20    9.31  jouaient *

    0.00    0.00    0.00    0.20    9.51  obsédé *

    0.00    0.01    0.00    0.19    9.70  plaie *

    0.00    0.01    0.00    0.19    9.90  poisson *

    0.00    0.01    0.00    0.19   10.09  déroulée *

    0.00    0.01    0.00    0.19   10.29  gare *

    0.00    0.01    0.00    0.19   10.48  poissons *

    0.00    0.01    0.00    0.19   10.67  écrits *

    1.04    1.19    1.02    0.18   10.86  elle *

    0.40    0.50    0.39    0.18   11.04  ... *

    0.00    0.01    0.00    0.18   11.22  endurer *

    0.06    0.09    0.05    0.18   11.39  ' *

    0.00    0.01    0.00    0.17   11.56  exactement *

    0.02    0.04    0.02    0.17   11.73  réalité *

    0.47    0.57    0.46    0.17   11.90  ai *

    0.00    0.01    0.00    0.16   12.06  parc *

    0.18    0.24    0.17    0.16   12.22  mes *

    0.55    0.66    0.54    0.16   12.38  me *

    0.00    0.01    0.00    0.16   12.54  étrange *

    0.00    0.01    0.00    0.16   12.70  courut *

    0.00    0.01    0.00    0.15   12.85  intelligents *

    0.00    0.01    0.00    0.15   13.01  précipite *

    0.05    0.08    0.04    0.15   13.16  leurs *

    0.00    0.01    0.00    0.15   13.31  doigt *

    1.42    1.58    1.39    0.15   13.46  à *

    0.00    0.00    0.00    0.15   13.61  accrochant *

    0.00    0.00    0.00    0.15   13.76  acteurs *

    0.00    0.00    0.00    0.15   13.91  déceler *

    0.00    0.00    0.00    0.15   14.06  frontière *

    0.00    0.00    0.00    0.15   14.21  interrogea *

La région 16 constitue 15.07% du corpus et compte 81276 occurrences de mots en français. On y note une dominance de la première personne («je», «mon», «m'»). Parmi les mots pleins, on trouve : «paragraphe», «clémentine», «colibri», «maya», «poignard», «orchidée».

Comparaison entre le vocabulaire utilisé par la région 6 et le reste du corpus


Analyseur DISTANCE



Filtre: $*alphabet=fr*gramr~nil*freqtot>2



distance: 4.78   distance/dimension: 0.00



liste des unités contribuant le plus à la distance:



               *

 Fréqtot Rég6    ~Rég6    explique  cumul

    0.01    0.07    0.00    1.58    1.58  > *

    0.01    0.06    0.01    1.00    2.57  > *

    0.00    0.02    0.00    0.72    3.30  pi *

    0.38    0.57    0.35    0.57    3.87  avait *

    0.00    0.01    0.00    0.49    4.35  do *

    0.00    0.01    0.00    0.49    4.84  ml *

    0.00    0.02    0.00    0.42    5.26  joué *

    0.00    0.02    0.00    0.41    5.67  croix *

    0.00    0.01    0.00    0.41    6.08  ré *

    0.00    0.01    0.00    0.40    6.48  fa *

    0.00    0.01    0.00    0.36    6.84  chante *

    0.01    0.05    0.01    0.36    7.20  pierre *

    0.02    0.05    0.01    0.35    7.55  frère *

    0.00    0.01    0.00    0.32    7.87  sauna *

    0.00    0.01    0.00    0.32    8.19  psychiatre *

    0.00    0.01    0.00    0.32    8.51  ajouta *

    1.13    1.38    1.11    0.28    8.80  il *

    0.01    0.03    0.01    0.25    9.05  seize *

    0.00    0.01    0.00    0.25    9.30  messe *

    0.00    0.01    0.00    0.24    9.54  bill *

    0.00    0.01    0.00    0.24    9.78  dispute *

    0.00    0.01    0.00    0.24   10.03  fantôme *

    0.00    0.01    0.00    0.24   10.27  faveurs *

    0.00    0.01    0.00    0.24   10.51  filtre *

    0.00    0.01    0.00    0.24   10.76  souvenu *

    0.00    0.01    0.00    0.24   11.00  voleur *

    0.30    0.18    0.31    0.24   11.24  vous

    0.02    0.04    0.01    0.23   11.47  copain *

    0.00    0.01    0.00    0.22   11.69  quelquefois *

    0.01    0.02    0.01    0.21   11.90  faible *

    0.29    0.39    0.27    0.20   12.10  sa *

    0.05    0.01    0.06    0.20   12.30  marie

    0.38    0.49    0.36    0.19   12.49  son *

    0.00    0.01    0.00    0.19   12.69  emmener *

    0.00    0.01    0.00    0.19   12.88  gai *

    0.00    0.01    0.00    0.19   13.07  courageuse *

    0.35    0.46    0.34    0.18   13.25  du *

    0.75    0.91    0.74    0.17   13.42  j' *

    0.00    0.02    0.00    0.17   13.59  paix *

    0.00    0.01    0.00    0.17   13.76  aida *

    0.00    0.01    0.00    0.17   13.93  article *

    0.00    0.01    0.00    0.17   14.10  coffre *

    0.00    0.01    0.00    0.17   14.27  cupidon *

    0.00    0.01    0.00    0.17   14.44  désagréable *

    0.00    0.01    0.00    0.17   14.61  gamin *

    0.00    0.01    0.00    0.17   14.78  guérie *

    0.00    0.01    0.00    0.17   14.95  hi *

    0.00    0.01    0.00    0.17   15.12  insista *

    0.00    0.01    0.00    0.17   15.29  somme *

    0.00    0.01    0.00    0.17   15.45  sports *

La région 6 constitue 13.86% du corpus et compte 54295 occurrences de mots en français. Dans cette région, on trouve plusieurs mots renvoyant à la musique : «do», «joué», «ré», «fa», «chante». On trouve le mot «psychiatre» et des mots faisant davantage allusion à une réalité homosexuelle : «sauna» et «gai». On trouve des mots suggérant la religion : «croix», «messe». On y note une absence significative du pronom «vous».

Éléments de conclusion

Dans une analyse de corpus, la première analyse descriptive a pour objectif de saisir les grandes caractéristiques d'un corpus: dimension, stratification, saturation et caractéristiques lexicales. Cette étape est essentielle pour bien saisir la nature du corpus et les biais possibles associés à sa constitution. Cette première analyse permet aussi de dégager la pertinence de certains traitement comme la correction orthographique, la catégorisation grammaticale, le dépistage des locutions et expressions. Elle permet aussi de saisir l'étendue des diverses variables sociologiques. Dans la présente analyse d'ailleurs, nous n'avons pas épuisé la description de ces variables qui sont très nombreuses et dont l'importance nous est inconnue. Nous avons donc priorisé les variables à portée plus universelle.

Le peu d'interactions avec l'équipe de chercheurs ayant constitué le corpus a imposé des limites à cette analyse qui s'est déroulée à l'aveugle. Même le descriptif des codes nous était inconnu. Même si l'analyse descriptive doit laisser parler les données, une connaissance plus intime du corpus et des hypothèses de travail permettent de diriger les outils d'investigation vers les phénomènes linguistiques et discursifs qui risquent d'être les plus éclairants du point de vue de l'analyse.

L'analyse a montré que certains traitements préalables pourraient être utiles : corrections des fautes, identification des noms propres. On aurait pu aussi évaluer l'utilité d'identifier les locutions fonctionnelles, par exemple les marqueurs d'argumentation comme «c'est-à-dire», «par conséquent» ou certaines locutions terminologiques.

L'analyse exploratoire présentée dans ce document devrait servir de base à une analyse thématique faisant appel à la catégorisation des mots. Une catégorisation au niveau lexical devrait déjà permettre de dégager des résultats très significatifs sur les préoccupations et les valeurs des divers groupes de jeunes qui ont produit des textes dans le cadre du concours. La connaissance des analyses qualitatives déjà réalisées, et de la problématique qui est à l'origine de la constitution du corpus, serait sans doute très utile pour définir la grille de catégorisation thématique.

Le corpus, ainsi que le présent rapport, sont disponibles sur Internet. Plus encore, le corpus est directement accessible pour être analysé à l'aide de la version Internet de SATO. Tout groupe de chercheurs qui s'intéresse au discours et aux préoccupations des jeunes serait donc à même de valoriser ce très beau corpus constitué dans le cadre du concours Message d'amour.