ICATeL -- Méthodologie - volet indexation

ICATeL:
Indexation et Conversion SGML Automatiques pour le traitement documentaire de Textes de Loi

Page précédente Paged'accueil Page suivante

Méthodologie - volet indexation

Auteures: Cynthia Delisle, Marie Hélène Vézina
Mots-clés: automatisation, balisage SGML, indexation, NOMINO, OmniMark, SATO, textes juridiques.
URL: http://www.ling.uqam.ca/ato/activites/icatel/metho_in.htm
Date de création: 22 août 1997
Dernière version: 4 décembre 1997
Date de la prochaine révision: non prévue pour le moment

1. Extraction des lexies nominales présentes dans le corpus à l'aide de NOMINO

Intrant: Fichiers de loi initiaux (exemple)
Extrant: Listes de lexies nominales (exemple)

Nous avons soumis le corpus (sauvegardé en format ASCII) au logiciel d'analyse morpho-syntaxique NOMINO afin d'obtenir, sous forme de listes d'items, l'ensemble des entrées lexicales correspondant aux catégories suivantes:

Noms simples: aéronef, marchandise, travail, etc. Cette liste totalisait 70 pages.
Ucn ou unités complexes nominales. Il s'agit de composés pouvant être formés:
- d'un nom et d'un adjectif: convention collective, dernier recours, etc.
- d'une synapsie, c'est-à-dire de deux noms reliés entre eux par les prépositions à ou de: banque à charte, droits de douane, etc.
- de répétitions et/ou combinaisons de ces deux patrons de base: assemblée générale annuelle, juridiction de droit commun, licence de pilote professionnel d'avion.
Les ucn constituent souvent de bonnes candidates en termes de descripteurs terminologiques. La liste obtenue comprenait 186 pages.
Ucna ou unités complexes nominales additionnelles. Cette catégorie regroupe:
- les composés bâtis à l'aide d'autres prépositions que à ou de: congé sans solde, transport par mer, etc.
- les composés semblables aux ucn, mais incorporant des éléments supplémentaires (par exemple des déterminants) qui rendent leur structure moins "fiable": compétences des régions, disposition des articles, membre du tribunal.
Étant détectées par NOMINO via l'emploi de règles de repérage moins rigoureuses, les ucna présentent de plus grands risques de "malformations" du point de vue syntaxique ou sémantique. Même bien construites, elles sont souvent trop vagues ou trop générales pour représenter des concepts terminologiques. La liste des ucna totalisait 142 pages.

Les trois listes ainsi extraites, qui comprenaient en tout 19 358 entrées, n'étaient pas lemmatisées: une même lexie pouvait y figurer sous différentes formes tributaires de variations flexionnelles de genre, de nombre, etc. Par exemple, on pouvait y retrouver à la fois les entrées droit de douane et droits de douane.

Haut de la page

2. Correction du corpus

Intrant: Fichiers de loi WordPerfect 5.1 initiaux (exemple)
Extrant: Fichiers de loi WordPerfect 5.1 corrigés (exemple)

L'inspection des listes obtenues grâce à l'utilisation de NOMINO a mis en lumière de façon particulièrement limpide les problèmes de corpus dont nous avons traité dans la section intitulée Présentation et analyse du corpus: traits d'unions insérés manuellement, majuscules inaccentuées, fautes d'orthographe et de frappe, etc. Dans ces listes, en effet, il était fréquent de rencontrer des séquences comme celles-ci (les chiffres indiquent le nombre total d'occurrences sur l'ensemble du corpus et l'emploi de la couleur rouge vise à mettre en évidence les entrées mal formées):


(accompli-èsement 1)
(accomplissement 16)
(accom-plissement 1)
(accomplissementir 3)

(circonscription_administrative 7)
(circonscription_admi-nistrative 1)

(equipage 3)
(équipage 26)

(expert_comptable_agréé 1)
(expert-comptable_agréé 28)
 
(fait_de_contrebande 2)
(fait_de_con-trebande 1)
 
(ministre 503)
(mi-nistre 1)
(minis-tres 1)
 
(travail 486)
(tra-vail 4)
(travailleur 242)
(tra-vailleur 2)
(travail-leurs 1)
 
(tribunal 190)
(tribu-nal 3)

Certains de ces exemples démontrent que NOMINO réussit quelquefois à remonter de la version "défigurée" d'un mot vers sa forme originelle, lui appliquant ainsi la bonne catégorie grammaticale et les patrons d'analyse correspondants. C'est le cas, entre autres, pour circonscription_admi-nistrative ou fait_de_con-trebande. De manière générale cependant, le logiciel s'avère incapable d'analyser correctement les entrées déformées. Cet état de fait a engendré la présence fréquente, à l’intérieur des listes, de séquences mal formées syntaxiquement et d'unitermes de catégories autres que les seuls noms demandés lors de l’extraction, par exemple des verbes (conjugués ou non), des adjectifs, des adverbes, des prépositions:


(expor-té_par_dérogation 1)
(fourniture_de_cer-tain 1)
(jouis-sent 1)
(litigieu-ses 1)
(lorque 1)
(lors-que 1)
(modi-fier 1)

Si la plupart des formes avec erreur(s) figuraient également dans les listes correctement orthographiées et saisies, il arrivait, cependant - et c’était plus préoccupant - qu’une forme fautive soit la seule occurrence de l’expression concernée dans le corpus. Bref, les problèmes mis en évidence étaient si nombreux et variés que, pour que le projet ICATeL ait quelque chance de réussite, il nous a fallu ajouter à l'échéancier une étape imprévue de correction des textes du corpus, sous peine autrement d'obtenir des résultats partiellement faussés et d’occasionner à la fois du bruit et du silence.

Pour effectuer la correction, nous avons procédé en partie manuellement. Suite à une inspection minutieuse des trois listes, page après page, nous avons pu dresser une nomenclature de la totalité des problèmes ponctuels qu’elles révélaient et des remplacements à effectuer (du genre evo-lution --> évolution). Une fois ce travail fastidieux complété, nous avons conçu dans WordPerfect 5.1 une série de macros contenant les instructions nécessaires pour régler individuellement chaque cas d’insertion de tiret et de non-accentuation de majuscules, de même que pour corriger les fautes d’orthographe et de frappe. Chacun des 37 fichiers fut ensuite traité avec ces macros, de manière à obtenir un corpus correctement orthographié et accentué. Nous avons dû, pour corriger ainsi avec succès le corpus, modifier la configuration des ordinateurs au niveau du DOS pour utiliser la page de codes multilingue ISO 850, permettant d’obtenir des majuscules accentuées.

Haut de la page

3. Extraction des lexies nominales présentes dans le corpus corrigé à l'aide de NOMINO

Intrant: Fichiers de loi corrigés (exemple)
Extrant: Listes de lexies nominales (exemple)

Une fois les tâches de correction du corpus terminées, nous avons retraité ce dernier avec NOMINO (voir notre première étape). Cette fois, les résultats s'avérèrent exploitables et conformes à ce que nous attendions.

4. Soumission des listes de lexies à l'experte juridique et conception des dictionnaires

Intrant: Listes de lexies nominales (exemple)
Extrant: Fichiers de dictionnaires (exemple)

Les trois listes issues du second traitement avec NOMINO furent remises à la consultante juridique impliquée dans le projet, Me Lison Néel, pour qu'elle puisse identifier à partir de leur contenu les termes et expressions relevant du domaine légal. Toutefois, avant de lui être remises, les listes firent tout d'abord l'objet d'une épuration préalable, somme toute assez minime, au cours de laquelle nous avons retiré les éléments qui n'avaient aucune chance de devenir des descripteurs terminologiques - juridiques ou non:

Séries de lettres majuscules provenant, apparemment, de la conversion en format ASCII de la "ligne de soulignement" qui sert à marquer le début et/ou la fin d'une loi:
- ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ
Séquences "aberrantes" causées par la présence, dans certaines lois, des tableaux évoqués à la section Présentation et analyse du corpus:
- flancs_³_canis_addristus_³_kungowulu_³
Séquences faisant référence à la structure "ponctuelle" des lois:
- paragraphe_précédent
Séquences visiblement mal formées:
- sein_au_scrutin_uninominal_par_l_assemblée_régionale
Séquences qui, bien que visiblement incomplètes, furent extraites par NOMINO parce qu'elles étaient conformes à certains patrons d'ucna demandés lors de l'extraction en dépit du haut taux de "malformations" qu'ils engendrent (ceci dans un souci d'exhausitivité maximale):
- pied_provisoire
Termes trop généraux ou trop vagues lorsqu'employés seuls (c'est-à-dire dans la liste des noms simples), entre autres des noms de mesure, des termes temporels, des adjectifs ordinaux:
- kilogramme

Haut de la page

Me Néel a donc inspecté les trois listes en indiquant, à côté de chaque item, s'il s'agissait d'un "terme juridique", d'un "terme non juridique" ou encore d'un "cas douteux". Nous lui avons suggéré de conserver comme "terme juridique" tout ce qui lui semblait désigner un concept légal. La plupart des items étiquetés comme "cas douteux" proviennent, quant à eux, des portions du corpus en langue étrangère (nous n'avions préalablement retiré des listes que les séquences de plusieurs mots comprenant des exposants). Voici quelques-uns de ces "cas douteux":

anogeisus
mungo_mungo
orycteropus

senegalensis_jus

Les items des listes ainsi annotées furent par la suite répartis en deux fichiers différents, correspondant aux "termes juridiques" et aux "sujets de loi" ("termes non juridiques"). Pour effectuer cette opération, nous avons tout d’abord retiré des trois listes toutes les entrées retenues comme "termes juridiques" par Me Néel (ainsi que leurs variantes flexionnelles) pour ensuite les regrouper dans un même fichier. Puis nous avons opéré un tri parmi les items restants, de façon à ne conserver comme sujets de loi potentiels dans le second fichier que de courtes entités, parmi lesquelles on peut relever les éléments suivants:

noms simples:

écimage
école
issue
issues
radiation
synapsies ("nom de nom", "nom à nom") et syntagmes "nom du nom" ou "nom au nom":

aérodrome_d_escale
aérodromes_d_escale
aérodrome_de_dégagement
aérodrome_de_destination
banque_à_charte
durée_du_contrat
engagement_à_l_essai
personnel_au_sol
certains autres syntagmes prépositionnels:

exportation_en_contrebande
exportation_sans_déclaration
retraite_par_anticipation
retraite_pour_invalidité
syntagmes adjectivaux:

activité_aéronautique
activité_agricole
transport_privé
transports_publics
transport_régulier

Nous avons également inclus dans ce second fichier quelques expressions plus longues qui nous semblaient, de façon "intuitive", constituer de bonnes candidates en tant que sujets de loi. Ces expressions sont souvent des combinaisons de syntagmes "nom de/du nom" et de syntagmes adjectivaux:

école_nationale_d_administration
élimination_des_entraves_techniques_aux_échanges
indemnité_de_départ_à_la_retraite
membres_des_forces_armées
métiers_artisanaux_de_la_transformation_des_métaux

Les items composant les fichiers Termes.dic (4 684 entrées) et Sujets.dic (4 607 entrées) furent séparés par des retours de chariot. Le fichier Sujets.dic, par exemple, avait alors l’allure suivante:


absence_autorisée
absences_autorisées
acacia
acception
accident_d_aviation
accidents_d_aviation 
[...]

Nous avons enfin ajouté manuellement à côté de chaque item le lemme correspondant (qui, incidemment, était souvent identique), en séparant les deux entités par une marque de tabulation. Précisons, toutefois, que nous n’avons pas procédé à une lemmatisation "radicale" et "absolue" des listes où, par exemple, nous aurions systématiquement mis au singulier tous les noms et au masculin singulier tous les adjectifs. Nous avons plutôt cherché à définir comme lemmes les termes ou expressions qui avaient les meilleures chances de se réaliser effectivement dans un corpus juridique, y compris pour les cas où l’item traité ne figurait qu'au pluriel dans le nôtre (ce qui suppose, évidemment, une certaine dose d’extrapolation). Les exemples suivants, tirés de Sujets.dic, sont représentatifs de ce partis pris:

administration_forestière administration_forestière
agent_d_affaires agent_d_affaires
banque_centrale_des_états_de_l_afrique_de_l_ouest banque_centrale_des_états_de_l_afrique_de_l_ouest
invasions_d_insectes invasion_d_insectes

Haut de la page

5. Choix des candidats-descripteurs avec SATO

Intrants: Fichiers d'intrant SATO avec balises SGML (exemple) et fichiers de dictionnaires (exemple)
Extrant: Fichiers d'extrant SATO avec descripteurs (exemple)

Les manipulations avec SATO ont été effectuées sur un corpus d'expérimentation réduit: deux lois de petite taille et deux lois de format plus important. Dans l'optique de mettre à l'épreuve nos hypothèses de recherche (voir Analyse des résultats), nous avons tout d'abord indexé le Code de l'aviation civile du Mali, à la fois globalement et au niveau de chacune des trois parties le composant, de trois manières différentes:

en concentrant les extractions sur les lexies simples ou complexes figurant dans le dictionnaire de sujets de loi
en concentrant les extractions sur les lexies simples ou complexes figurant dans le dictionnaire de termes juridiques
en combinant l'usage de ces deux dictionnaires

Dans une seconde étape, nous avons indexé globalement les quatre lois du corpus d'expérimentation en appliquant chacun des critères suivants pour la sélection des candidats-descripteurs:

fréquence totale d'apparition de la lexie dans le texte
fréquence d'apparition de la lexie dans un sous-texte formé des divers intitulés: énoncés de partie, de titre, de chapitre, d'article, etc.
valeur de Chi² de la lexie: cette valeur, obtenue en tenant compte de la totalité d'un corpus, permet de connaître le degré d'uniformité de la répartition d'une lexie sur l'ensemble de ce dernier.
valeur discriminante de la lexie: également calculé à partir de la totalité du corpus considéré, cet indicateur révèle à quel point une lexie particulière est caractéristique d'un texte - ou d'une portion de celui-ci - et contribue à le distinguer des autres éléments du corpus. La valeur discriminante tient compte notamment de la répartition de la lexie sur l'ensemble du corpus et de sa fréquence totale d'apparition.

À titre d'expérience, nous avons appliqué trois fois chacun des critères séparément, en faisant varier le seuil d'extraction défini. Au vu des résultats, nous avons déterminé une combinaison de critères et de seuils d'extraction pouvant être appliquée avec succès sur l'ensemble du corpus d'expérimentation.

L'utilisation du concordancier SATO produit des fichiers portant l'extension .lis qui contiennent en format ASCII les lois traitées (enrichies du balisage SGML de la macro-structure textuelle résultant du traitement par OmniMark) et comportent l'identification, dans le texte, de toutes les occurrences des termes choisis comme candidats-descripteurs. Cette identification s'opère via l'ajout au texte de loi de propriétés SATO qui suivent la lexie concernée et indiquent la portée du candidat-descripteur (indexation globale et/ou locale), la ou les raison(s) à l'origine de son choix (fréquence totale, fréquence dans les intitulés, Chi², valeur discriminante), la forme lemmatisée de la lexie, etc.


Page précédente	Paged'accueil	Haut de la page	Page suivante