peinture ICATeL:
Indexation et Conversion SGML Automatiques pour le traitement documentaire de Textes de Loi

Page précédente Paged'accueil

Conclusion et recommandations
Auteures: Cynthia Delisle, Marie Hélène Vézina
Mots-clés: automatisation, balisage SGML, indexation, NOMINO, OmniMark, SATO, textes juridiques.
URL: http://www.ling.uqam.ca/ato/activites/icatel/recomman.htm
Date de création: 22 août 1997
Dernière version: 4 décembre 1997
Date de la prochaine révision: non prévue pour le moment

I. Conclusion

Dès les premières étapes de réalisation du projet ICATeL, il est devenu évident que la nature composite du corpus rendait illusoire notre intention de départ d'extraire un échantillon "représentatif" de lois sur lequel la totalité du prototype aurait pu être basée. Pour essayer d'englober un maximum d'hétérogénéité et ainsi mettre au point un système suffisamment performant, nous avons travaillé constamment, tant au niveau de l'indexation que de la "SGMLisation", sur la totalité des textes fournis. La diversité rencontrée fut telle, cependant, qu'il nous a été impossible de mettre au point avec SATO des procédures automatiques d'indexation pouvant être appliquées sans peine à la totalité du corpus. En ce qui concerne l'utilisation de ce logiciel, nous avons donc dû abandonner l'objectif de départ (indexation automatique globale et locale des 37 lois du corpus) et nous limiter à l'emploi d'un sous-corpus restreint de quatre lois.

L'ajout devenu incontournable d'une étape supplémentaire - longue et pénible - de correction des textes a par ailleurs engendré des retards considérables dans le déroulement du projet et empêché la mise au point de procédures d'indexation plus sophistiquées que les quelques commandes exploratoires évoquées à la section Choix des candidats-descripteurs avec SATO de la méthodologie.

Par contre, l'aspect "SGMLisation" du corpus s'est avéré une réussite: les programmes conçus ayant pu être appliqués avec succès à l'ensemble des textes, il nous a été possible de convertir vers un premier extrant SGML (sans descripteurs) la totalité des lois soumises par le demandeur. L'exercice aura cependant exigé un fort travail d'analyse, de même que la production de programmes assez chargés vu le grand nombre d'alternatives et d'exceptions devant être prévues.

On peut estimer que les problèmes rencontrés lors de la réalisation d'ICATeL ont été tributaires principalement des deux facteurs suivants:

  • Nature hétéroclite du corpus de travail.

  • Intégration dans un même prototype de plusieurs logiciels aux exigences plus ou moins compatibles quant à la forme des fichiers d'intrant et aux possibilités de configuration des fichiers d'extrant (NOMINO, WordPerfect, OmniMark, SATO).

II. Recommandations

Les recommandations qu'il est possible d'émettre suite au projet ICATeL sont de deux ordres: celles permettant une efficacité maximale du prototype et celles relatives à la préparation par les intervenants initiaux des corpus à traiter.

  1. Recommandations concernant le prototype ICATeL

    Ces recommandations incluent des améliorations à apporter au prototype, des suggestions pour en augmenter l'automatisation, etc.

    1. Conception des dictionnaires de lexies

      • Il serait probablement plus efficace et plus simple d’exclure des dictionnaires de lexies les entrées ne figurant qu’une fois dans les listes extraites par NOMINO (on pourrait également décider d’un seuil de fréquence plus élevé, selon la nature et l'ampleur du corpus). Dans notre cas, ces entrées constituent la grande majorité des deux dictionnaires établis et leur nombre très élevé a compliqué et retardé considérablement la réalisation de ceux-ci. Le travail ainsi occasionné s’est en outre avéré en bonne partie inutile puisque, de toute façon, les entrées qui ne figurent qu’une fois dans le corpus sont peu susceptibles d’être conservées comme candidats-descripteurs.

      • Une circonspection particulière devrait toujours accompagner le choix des unitermes à inclure dans un dictionnaire de lexies. Il faudrait tout particulièrement voir à éviter l’insertion dans ces dictionnaires, autant que possible, d’unitermes au sens trop vague/général (bord, cas, rapport, service), d’unitermes polysémiques (vol), d’unitermes pouvant éventuellement être confondus avec des formes identiques relevant d’autres catégories grammaticales (inférieur, présent, relève, titulaire), etc.

    2. Automatisation

      • Il serait souhaitable, éventuellement, d'automatiser le processus de choix des lexies à inclure dans les dictionnaires à partir des listes fournies par NOMINO et celui de distinction entre les termes juridiques et les termes non juridiques. Ces deux processus furent ici pris en charge par l'experte du domaine juridique.

      • L'étape de sauvegarde du corpus en texte délimité ASCII à l'aide du logiciel WordPerfect 6.0 pour Windows, qui fut nécessaire dans notre cas pour la reconnaissance des éléments définis comme se terminant par un retour à la ligne (¶), pourrait sans doute être remplacée par un mécanisme de "marquage" en clair des retours à la ligne au niveau de la macro de WordPerfect. Combiné à une redéfinition des patrons de reconnaissance des éléments concernés dans le programme de "conversion enrichie", ce mécanisme épargnerait une étape dans le prototype.

  2. Recommandations concernant la préparation préalable des corpus

    Le projet ICATeL aura mis en lumière l'extrême importance, dans une perspective d'automatisation des opérations de la chaîne documentaire, de définir une structure, une présentation et - dans une certaine mesure - un contenu normalisés des documents à traiter. La production même de textes destinés à être éventuellement balisés en SGML et indexés peut donc faire l'objet de certaines recommandations, dont plusieurs s'avèrent applicables dans une optique de formation locale des gens chargés de la rédaction et de la saisie des documents.

    1. Contenu, structure et typographie des textes

      • Autant que possible, les textes ne devraient pas renfermer de tableaux ni de mots ou expressions en langue étrangère. Lorsque l'inclusion de ces éléments s'avère indispensable, on devrait idéalement les regrouper dans des sections bien délimitées, notamment en annexe, ou les introduire/encadrer à l'aide de caractères spécifiques (par exemple des guillemets) de manière à faciliter ensuite leur détection par les logiciels de traitement de la langue et éventuellement leur exclusion des analyses. Les tableaux ne devraient jamais être créés à la main, mais bien plutôt en utilisant les fonctions de création de tableaux et graphiques intrinsèques aux logiciels de traitement de texte. Les tableaux "artificiels" découlant de l'emploi de tabulations ou de l'usage de la barre d'espacement devraient être évités à tout prix.

      • Les subdivisions logiques des lois devraient faire l'objet d'une identification claire (par exemple, ne pas laisser la Première partie d'une loi comme implicite en identifiant seulement les Deuxième partie, Troisième partie, etc.).

      • Il y aurait lieu de définir un modèle normalisé quant à la typographie des textes et surtout de l'appliquer de façon rigoureuse. Cet aspect, d'une importance capitale, pourrait s'effectuer notamment via l'élaboration de documents du type "guide de rédaction" et l'emploi de feuilles de styles calquées sur la DTD. Dans ce dernier cas, on pourrait alors penser effectuer la "conversion enrichie" des fichiers initiaux en utilisant les codes de traitement de texte propres aux différentes composantes des feuilles de styles.

      • On pourrait aussi, naturellement, envisager une "SGMLisation" des textes dès la conception initiale, à l'aide d'un éditeur SGML ou encore grâce à un traitement de texte permettant la sauvegarde en format SGML (via l'utilisation de feuilles de style).

    2. Saisie des corpus à l'ordinateur

      • La saisie des corpus devrait toujours s'effectuer via l'emploi de majuscules accentuées (usage de la page de codes multilingue ISO 850).

      • On ne devrait en aucun cas insérer manuellement dans les textes des traits d'union en fin de ligne.

      • Le respect de l'orthographe et des règles de la syntaxe, de la ponctuation et de la dactylographie devrait faire l'objet d'une attention constante. La plupart des traitements de texte contemporains incorporent, du reste, des correcteurs orthographiques et syntaxiques qui peuvent apporter une aide appréciable à cet égard.

Page précédente Paged'accueil Haut de la page

©1997