ICATeL -- Solution retenue et développée

ICATeL:
Indexation et Conversion SGML Automatiques pour le traitement documentaire de Textes de Loi

Page précédente

Page

d'accueil

Page suivante

Solution retenue et développée

Auteures: Cynthia Delisle, Marie Hélène Vézina
Mots-clés: automatisation, balisage SGML, indexation, NOMINO, OmniMark, SATO, textes juridiques.
URL: http://www.ling.uqam.ca/ato/activites/icatel/schema.htm
Date de création: 22 août 1997
Dernière version: 4 décembre 1997
Date de la prochaine révision: non prévue pour le moment

I. Présentation de la solution retenue

image référencée illustrant les étapes du prototype ICATeL

Le déroulement d'ICATeL est schématisé dans la figure ci-contre, dont tous les éléments sont consultables. On peut accéder à la description de chacune des étapes du prototype en cliquant sur la flèche correspondante; les étapes relevant de la démarche d'indexation sont identifiées par une coloration orangée alors que celles appartenant au processus de "SGMLisation" présentent une coloration verte. Les rectangles du schéma, quant à eux, permettent de visualiser des exemples de fichiers qui servent à illustrer le processus de transformation, depuis les fichiers de loi initiaux jusqu'à l'extrant final indexé et balisé.

Haut de la page

II. Justification de la solution retenue

Dans la mesure où notre mandat consistait moins en la mise au point d'une solution théoriquement optimale qu'en la conception d'un outil ponctuellement adapté aux besoins du demandeur, nous avons opté pour la solution alambiquée schématisée à la Figure 1, espérant ainsi atteindre de bons résultats à la fois en termes d'automatisation et de qualité d'indexation et de balisage SGML.

Au niveau des opérations d'indexation, la question des outils de travail à employer ne s'est pas réellement posée (outre le fait que nous devions utiliser prioritairement les logiciels développés au Service ATO, NOMINO et SATO s'avéraient dans notre cas parfaitement complémentaires: NOMINO pour l'extraction des lexies contenues dans le corpus afin de constituer les dictionnaires et SATO afin d'exploiter ces dictionnaires et le balisage SGML effectué par OmniMark pour extraire des candidats-descripteurs). En ce qui concerne le processus de "SGMLisation", le choix du logiciel OmniMark fut motivé principalement par les considérations suivantes:

Les solutions de conversion impliquant la manipulation de codes de formatage, en format natif WordPerfect ou en format RTF (Rich Text Format), auraient été inadéquates car d'application ardue et engendrant beaucoup de travail pour peu de gains. En effet, l'utilisation de codes de formatage dans les fichiers originaux se borne à l'emploi de diverses fontes (caractères gras ou italiques, soulignement) ou encore à des éléments axés vers la restitution papier du document (polices de caractères, pagination, en-têtes, disposition du texte sur deux colonnes, etc.). De plus, le fait qu'aucune feuille de style n'ait été employée lors de l'édition originelle des fichiers a rendu les solutions éventuelles reliées à un intrant RTF ou WP beaucoup moins profitables.
Comme nous l'avons mentionné dans la section Présentation et analyse du corpus, l'hétérogénéité démontrée par les textes exigeait l'utilisation d'un outil puissant capable de reconnaître et de traiter une grande variété de patrons de caractères. La seule utilisation, pour la totalité des opérations de conversion, du langage de macro propre à WordPerfect n'aurait pas permis la détection de chaînes sophistiquées de caractères ni la gestion d'un nombre élevé de patrons alternatifs. L'utilisation d'un outil performant et conçu spécialement pour ce genre de tâche, tel OmniMark, s'imposait absolument.
Bien qu'hétérogènes, les fichiers présentaient suffisamment d'éléments structurels communs (articles, chapitres, sections, etc.) désignés explicitement dans les textes pour pouvoir considérer un intrant en format ASCII au programme OmniMark. Il restait cependant, dans cette optique, à régler la question des attributs typographiques, que le demandeur désirait pouvoir retrouver dans l'extrant final.

Mentionnons enfin que les étapes de correction du corpus et de ré-extraction subséquente des lexies par NOMINO ne devraient pas, en principe, figurer dans le modèle théorique développé. Elles se sont cependant avérées nécessaires ponctuellement à cause de la nature de notre corpus de travail.


Page précédente	Paged'accueil	Haut de la page	Page suivante