peinture ICATeL:
Indexation et Conversion SGML Automatiques pour le traitement documentaire de Textes de Loi

Page précédente Paged'accueil Page suivante

Présentation générale d'ICATeL
Auteures: Cynthia Delisle, Marie Hélène Vézina
Mots-clés: automatisation, balisage SGML, indexation, NOMINO, OmniMark, SATO, textes juridiques.
URL: http://www.ling.uqam.ca/ato/activites/icatel/presenta.htm
Date de création: 22 août 1997
Dernière version: 4 décembre 1997
Date de la prochaine révision: non prévue pour le moment

I. Présentation générale d'ICATeL

1.1. Mise en contexte

L'époque à laquelle nous vivons est souvent qualifiée d'ère de l'information, et on peut d'ores et déjà prédire que les historiens des générations futures conserveront ce vocable pour la désigner. Et ce sera parfaitement justifié: d'une part, nous assistons présentement à une production sans précédent de documents de toutes sortes, de tous les formats, sur tous les sujets; d'autre part, et parallèlement à cette énorme activité de création, l'informatisation sans cesse croissante et la naissance des médias électroniques rendent en quelque sorte une "seconde jeunesse" aux documents déjà existants, qui deviennent accessibles (souvent simultanément) à un grand nombre de personnes.

Fondamentalement positive, cette "surenchère informationnelle" engendre néanmoins certains problèmes, dont le plus épineux est peut-être celui concernant la nécessité de disposer d'un accès facile, rapide et peu coûteux à l'information désirée. Et, dans cette optique, la production de versions électroniques des documents, bien qu'essentielle, ne saurait suffire: à quoi bon disposer de milliers de textes si l'ignorance du contenu de ceux-ci rend tout choix éclairé impossible? C'est dire qu'une indexation préalable rigoureuse s'avère elle aussi nécessaire.

Dans cet ordre d'idée, des procédures permettant d'assurer une disponibilité rapide à la fois des documents eux-mêmes et des idées qu'ils renferment doivent être développées dans les plus brefs délais, sous peine autrement de demeurer en deçà des immenses possibilités de la technologie actuelle en matière de production, d'utilisation et de gestion de l'information. Parmi les solutions potentielles envisagées, on retrouve notamment la mise au point de systèmes d'indexation et de balisage des textes. Ces systèmes, en plus de faciliter l'interrogation, le repérage et la restitution de l'information, ont également l'avantage d'influer de façon bénéfique sur son échange et sa réutilisation.

Comme, par ailleurs, l'utilisation de la machine est en principe synonyme d'économies, de gain de temps et de traitement facilité des gros volumes de données, l'automatisation des processus intrinsèques à la mise en place de tels systèmes, même partielle, apparaît comme une voie d'avenir intéressante.

ICATeL fut conçu et réalisé en gardant à l'esprit les différents éléments de cette problématique. Prototype rétrospectif et automatique d'indexation et de balisage SGML[1], ICATeL vise à fournir, à partir d'un texte brut, un texte enrichi avec des balises SGML identifiant, d'une part, la structure logique des textes de loi et, d'autre part, des mots ou syntagmes présents dans les documents et considérés comme représentatifs du contenu textuel en vertu de certains critères: situation dans la macro-structure du texte (par exemple dans un titre), mise en valeur grâce à des artifices typographiques tels le gras ou l'italique, fréquence d'apparition, etc.

Le projet fut entrepris à l'initiative de M. Marc-André Ledoux, de Documensa. Le prototype constitue d'ailleurs, en quelque sorte, une étape intermédiaire dans le processus global de production du cd-rom du Journal officiel du Mali, conçu par Documensa et interrogeable via les fonctionnalités de recherche propres à Edibase-SGML, système de gestion de bases de données textuelles (SGBDT) produit par cette même firme. ICATeL fait également partie intégrante de VISIBILITÉ, projet de recherche de plus grande envergure mené conjointement par l'EBSI et le Service ATO, qui vise à assurer une plus grande diffusion aux réalisations de ces deux organismes.

1.2. Description du prototype

Le prototype ICATeL a été mis au point à l'aide du traitement de texte WordPerfect, de l'analyseur morpho-syntaxique NOMINO, du convertisseur SGML OmniMark et du concordancier SATO. Bien que les diverses étapes de traitement composant le prototype constituent un tout indissociable et qu'elles soient inextricablement imbriquées entre elles, on peut néanmoins distinguer deux grandes catégories d'opérations: l'automatisation du balisage SGML et la mise au point de mécanismes automatiques d'indexation des textes du corpus.

Volet "SGMLisation":

La méthodologie employée consiste, à partir de fichiers WordPerfect de textes de lois non indexés et non balisés, à effectuer via les fonctionnalités de macros de ce logiciel une première conversion en fichiers ASCII tout en conservant l'information relative à la mise en forme originelle (ex.: soulignement, listes numérotées, etc.). Ces fichiers ASCII font ensuite l'objet d'une "conversion enrichie" (traduction libre de up-conversion), c'est-à-dire une conversion où l'on passe d'un format structural vers un format logique, dans le cas d'ICATeL une instance SGML valide. Cette seconde conversion est réalisée par le convertisseur OmniMark, outil qui peut traiter des textes non balisés grâce à un puissant langage d'expressions régulières qui permet, couplé à un parseur SGML interne, la reconnaissance de patrons dépendants du contexte SGML. Par la suite, les textes ainsi "SGMLisés" sont convertis une nouvelle fois pour obtenir des fichiers d'entrée interprétables par le logiciel SATO, afin que le processus d'indexation puisse profiter de la reconnaissance de la macro-structure des textes qu'exprime explicitement le balisage SGML, par exemple pour permettre de pondérer un candidat-descripteur en fonction de sa présence dans certaines parties du texte comme les titres, les intitulés de chapitre, etc. Cette troisième conversion, dite "conversion appauvrie" (traduction libre de down-conversion) puisqu'elle implique la conversion d'un format logique (SGML) vers un format structural (SATO), est aussi réalisée avec le convertisseur OmniMark, qui possède des fonctionnalités de traitement propres au SGML (éléments, attributs, etc.). Enfin, la dernière étape du prototype ICATeL consiste à intégrer les descripteurs retenus par le travail d'indexation et encodés à l'intérieur de fichiers de sortie SATO à la structure SGML déjà existante.

Volet indexation:

Tout d'abord, un traitement NOMINO de l'ensemble des fichiers du corpus (en format ASCII) vise à relever, sous forme de listes, toutes les lexies nominales rencontrées. Dans la mesure où un concept important peut tout aussi bien être exprimé par un mot simple que par un syntagme, ICATeL extrait à la fois les noms simples et les lexies complexes. Suite à l'inspection effectuée par un(e) spécialiste de sciences juridiques, les listes extraites par NOMINO servent à construire deux "dictionnaires". Dans le cas d'ICATeL, le premier répertorie les termes juridiques, qui constituent un fond lexical commun à l'ensemble des lois et témoignent de la nature légale profonde des documents; le second, quant à lui, renferme les sujets des lois, c'est-à-dire les lexies n'appartenant pas au vocabulaire juridique et qui permettent une meilleure discrimination des textes entre eux. Si leur jonction s'avère nécessaire pour rendre compte adéquatement du contenu d'une loi, nous avons néanmoins choisi d'établir deux dictionnaires distincts afin de permettre d'éventuelles lectures ou analyses des documents avec prédominance de l'un ou l'autre point de vue. À l'aide de SATO, les dictionnaires ainsi établis sont projetés sur le corpus de façon à repérer et à "marquer", dans chaque loi, les occurrences des termes qu'ils contiennent. Par la suite, divers procédés d'analyse (notamment statistiques) permettent d'identifier pour chaque texte les termes contenus dans les dictionnaires qui sont susceptibles de constituer des descripteurs. Les dictionnaires établissant des correspondances entre les syntagmes effectivement réalisés dans le corpus (formes non lemmatisées) et leurs équivalents lemmatisés, ICATeL s'avère utile à la fois pour le repérage et le balisage dans les textes des formes non lemmatisées - rendant ces dernières accessibles à la recherche en ligne - et pour la constitution, à partir des formes lemmatisées, d'index, de thésaurus et d'autres outils de normalisation.

Haut de la page

II. Objectifs de conception du prototype
  1. Incorporation de "valeur ajoutée" aux textes du corpus, c'est-à-dire enrichissement des textes bruts pour améliorer le repérage.
  2. Traitement de la totalité des lois du corpus ou, à défaut, mise au point de procédures suffisamment développées et détaillées pour permettre de mener à bien cette tâche ultérieurement.
  3. Traitement automatisé au maximum. Toutefois, on souhaite également la conservation d'une part de "travail humain", afin de favoriser la création d'emplois dans un contexte de transfert technologique.
  4. Méthodologie pouvant être appliquée de nouveau, dans la mesure du possible, sur d'autres corpus de même nature.
  5. Préservation de l'intégrité des données et des informations originelles de mise en forme tout au long des divers traitements et conversions de fichiers.
  6. "SGMLisation" conforme à une ébauche de DTD fournie par Documensa. On désire minimalement voir figurer dans la DTD certains constituants des textes dans une optique de création d'index thématiques par le SGBDT Edibase-SGML.
  7. Indexation double: globale (ensemble de la loi) et locale (limitée à une unité structurelle inférieure, par exemple la partie ou le chapitre).
  8. Utilisation de logiciels disponibles localement, notamment ceux développés au Service ATO.
III. Les participants au projet

Étudiantes de l'EBSI

  • Cynthia Delisle: tâches reliées à l'indexation et utilisation de NOMINO et de SATO.
  • Marie Hélène Vézina: tâches reliées à la "SGMLisation" automatique et enrichissement de la DTD.

Professeurs de l'EBSI

Consultants

  • François Daoust: chercheur au Service ATO et concepteur du logiciel SATO.
  • Sylvain Lambert: infographiste.
  • Lison Néel: étudiante de deuxième cycle en sciences juridiques de l'UQAM (Université du Québec à Montréal).
  • Gracia Pagola: chargée de cours et agente de recherche à l'EBSI.
_______________________________________________________________
1 La norme SGML (Standard Generalized Markup Language; ISO/IEC 8879) consiste en un métalangage définissant des méthodes de représentation logique des textes électroniques indépendamment de l'environnement informatique utilisé. Une telle représentation s'appuie sur un balisage descriptif qui permet d'encoder de façon structurée le contenu logique des divers constituants du texte. Permettant de rendre explicite une sémantique textuelle implicite, le balisage SGML facilite grandement le repérage, l'analyse et la réutilisation de l'information. [retour au texte]

Page précédente Paged'accueil Haut de la page Page suivante

©1997