peinture ICATeL:
Indexation et Conversion SGML Automatiques pour le traitement documentaire de Textes de Loi

Page précédente Paged'accueil Page suivante

Présentation et analyse du corpus
Auteures: Cynthia Delisle, Marie Hélène Vézina
Mots-clés: automatisation, balisage SGML, indexation, NOMINO, OmniMark, SATO, textes juridiques.
URL: http://www.ling.uqam.ca/ato/activites/icatel/corpus.htm
Date de création: 22 août 1997
Dernière version: 4 décembre 1997
Date de la prochaine révision: non prévue pour le moment

I. Présentation générale du corpus

Le corpus à partir duquel fut conçu et développé le prototype ICATeL a été fourni par Documensa et comprend 37 lois en provenance du Journal officiel du Mali. Ces textes, sous forme de fichiers WordPerfect, n'ont pas fait l'objet de balisage ou d'indexation préalables. Bien que composé uniquement de textes de loi, ce corpus est extrêmement hétérogène et présente des variations considérables entre les fichiers relativement aux polices et tailles de caractères employées, au volume des lois, etc. À titre d'illustration, mentionnons que certaines lois se composent d'un article unique alors que d'autres en comportent plusieurs centaines. Par ailleurs, quelques fichiers possèdent des caractéristiques particulières telles que répartition du texte sur deux colonnes ou présence d'en-têtes, de pieds de page, d'annexes, de tables de matières ou de tableaux.

Les sujets abordés dans les lois sont également fort variés: les douanes, l'aviation civile, l'environnement, les professions juridiques, l'usure, l'artisanat, le travail, etc.

II. Analyse du corpus: énumération des aspects problématiques

NB: Les exemples fournis sont authentiques et proviennent de différentes lois du corpus.

  1. Majuscules inaccentuées

    Les lois du corpus renferment de nombreuses séquences entièrement en lettres majuscules, lesquelles ne sont jamais accentuées. Ce sont généralement des intitulés de subdivision (partie, section, chapitre, etc.), donc des segments textuels ayant un poids informationnel important.

    Exemples:

    • LOI N092-013/ PORTANT INSTITUTION D'UN SYSTEME NATIONAL DE NORMALISATION ET DE CONTROLE DE QUALITE
    • CHAPITRE I : DISPOSITIONS GENERALES
    • CHAPITRE II : DE L'ELIMINATION DES DECHETS
    • SECTION 2 : DES DISPOSITIONS FINANCIERES

  2. Traits d'union insécables

    Dans un certain nombre de lois, on constate la présence très fréquente de mots contenant un trait d'union inséré manuellement.

    Exemples:

    • ARTICLE 16 : La collectivité est civilement res-ponsable à titre principal des crimes et délits commis à force ouverte ou par violence collective sur son territoire par des attroupements ou ras-semblements armés ou non, soit envers les person-nes, soit contre les biens publics et privés. En cas de troubles graves ou lorsque les circonstan-ces l'exigent, l'Etat peut se substituer à une ou plusieurs collectivités en vue d'assurer le maintien de l'ordre et de la tranquillité publics dans le strict respect de la loi.
    • ARTICLE 156/ Les agents des Douanes ne peuvent procé-der à l'ouverture des colis constitués en dépôt de Douane et à la vérification de leur contenu, qu'en présence du propriétaire ou du destinataire ou, à défaut, d'une personne désignée par l'autorité judi-ciaire compétente à la requête du Service des Douanes.

  3. Fautes d'orthographe et erreurs de frappe

    Le nombre de fautes d'orthographe et d'erreurs de frappe dans les textes est anormalement élevé, notamment en ce qui concerne l'accentuation.

    Exemples:

    • bois d'ouvre
    • dégré
    • detachement
    • exigneces
    • maliennnes
    • specifique
    • systèem

  4. Erreurs de dactylographie

    Le corpus renferme plusieurs cas de non-respect des règles élémentaires de la dactylographie (comme, par exemple, la nécessité de laisser au moins une espace blanche entre deux mots ou suite au point final d'une phrase).

    Exemples:

    • ARTICLE 9 : Sous réserve des dérogations prévues à l'article 11 ci-dessous, les normes visées aux articles 6 et 7 sont applicables obligatoirement pour l'ensemble des opérateurs publics et privés concernés. Le contrôle de leur applicationest effectué par les services techniques compétents dans le domaine concerné.
    • ARTICLE 26: avant la mise en oeuvre effective de la décentralisation, les autorités administratives en place exerceront, dans les limites de leur ressort territorial,les compétences dévolues par la présente loi.
    • ARTICLE 45 : Les forêts classées de l'Etat pour-ront être ouvertes au déplacement et à la pâture des animaux conformément aux termes de l'acte de classement.Toutefois ses animaux doivent être conduits par un berger.
    • Article 128 : La démission de l' assemblée régionale est adressée au ministre chargé des collectivités territoriales qui en accuse réception. Elle est effective dès accusé de réception et à défaut un mois après l'envoi de la démission par lettre recommandée.

    Haut de la page

  5. Mots et expressions en langue étrangère

    Plusieurs lois renferment des passages formés de mots simples ou composés provenant de langues autres que le français (latin ou langues vernaculaires africaines).

    Exemple:

    • ARTICLE 17 : Sont et demeurent protégées les essences forestières suivantes :
      1. Elaeis guinensis jacq : palmier à huits
      2. Borassus aéthiopium Hart : Rônier
      3. Pterocarpus efinaceus poir : Vène
      4. Afzelta africaina Smith : "lenge"
      5. Acacia sénégal Willd : Commiel
      6. Parkia biglosa Benth : "nèré"
      [...]

  6. Présence de "tableaux"

    Quelques lois renferment des tableaux, que ce soit dans le corps du texte ou en annexe. Si certains de ceux-ci sont de véritables tableaux réalisés grâce aux fonctions spécialisées du traitement de texte, d'autres sont de "faux tableaux" formés d'entrées plus ou moins alignées en colonnes à l'aide, apparemment, de la barre d'espacement.

    Exemple:

    • ANNEXE I : Animaux intégralement  protégés
      
      
      
      Nom Français       | Nom Latin                 |  Nom Bamanan
      
      Mamnifères   
      
      Chimpanzé          | Pan troglodytes           | Woronin      
      
      Colobes            | Colobus sp                | soulafin     
      
      Panthère ou Léopard | Panthera pardus          | Waraninkalan
      
      Guépard            | Acinonyx jubatus          | Kolokari     
      
      Chat doré          | Felis aurata              | Jakumawara   
      
      Loutres            | Lutrinae                  | Jiwulu       
      
      Pangolin           | Manis Spp                 |  Kooso-kassa  
      
      Oryctérope         | Orycteropus afer          |  tinba
      
      [...]
      
      

    Haut de la page

  7. Structure des lois du corpus

    Les différentes subdivisions qui composent une loi s'emboîtent les unes dans les autres selon un ordre bien déterminé. On peut illustrer cette structure de la façon suivante (de la subdivision la plus large à la subdivision la plus fine):

      
      Loi
      
       Partie
      
        Titre
      
         Chapitre
      
          Section
      
           Sous-section
      
            Paragraphe
      
             Sous-paragraphe
      
              Article
      
               Texte de la loi (listes d'items ou paragraphes de texte)
      
      

    Il s'agit là d'une séquence complète et "idéale", qui ne se réalise pas comme telle dans le corpus: chacune des 37 lois ne comporte qu'un certain nombre de ces subdivisions. Il y a toutes sortes de variantes, depuis les structures très simples n'incluant qu'un intitulé de loi, des numéros d'article et du texte jusqu'aux lois où presque toutes ces subdivisions apparaissent au moins une fois.

    Plusieurs caractéristiques structurelles des lois sont assez problématiques. Il arrive, par exemple, que le premier item d'une subdivision ne soit pas désigné explicitement. (On trouvera ainsi une seconde partie vers le milieu de la loi sans qu'il y ait de première partie au début.) De plus, la répartition des subdivisions présentes est rarement uniforme sur l'ensemble d'une même loi: ainsi, une loi peut comporter deux parties dont la première n'aura que des numéros d'article alors que la seconde renfermera en plus deux titres dont l'un se subdivisera en sections, etc.

    Seule la numérotation des articles est incrémentielle pour l'ensemble de la loi, celle des autres éléments recommence à chaque subdivision de niveau supérieur. Les articles sont numérotés en chiffres arabes; les autres éléments, par contre, le sont généralement en chiffres romains. Mentionnons en outre que certains aspects de la structure des articles (par exemple le nombre de paragraphes, la présence ou l'absence de listes ordonnées, etc.) varient selon les lois.

  8. Typographie

    Le corpus ne présente aucune homogénéité quant à la façon d'utiliser:

    • les caractères gras;
    • les caractères italiques;
    • le centrage;
    • les lettres majuscules;
    • les nombres cardinaux et ordinaux;
    • le soulignement;
    • les tabulations.

    Les combinaisons de ces divers éléments sont en fait presque aussi nombreuses que les lois elles-mêmes. Il arrive, en outre, qu'il y ait des incohérences intra-loi:

    • Chapitre I :

      a) Le référé administratif [...]
      b) Le sursis à exécution [...]
      c) Les incidents [...]

    Il n'est donc pas surprenant qu'il y ait beaucoup de variations entre les lois - et parfois à l'intérieur d'une même loi - en ce qui a trait aux syntaxes employées pour exprimer un même constituant logique. Parmi les cas les plus éloquents, on retrouve:

    1. les puces ou numéros/lettres servant à introduire les items dans les listes et énumérations, qui sont constitués de nombreuses combinaisons impliquant les caractères suivants:
      • astérisque *
      • barre oblique /
      • chiffres 1, 2, 3 ou 10, 20, 30 ...
      • deux-points :
      • lettres a, b, c ou A, B, C ...
      • parenthèse fermante )
      • point .
      • point-virgule ;
      • symbole de degré °
      • tiret -

      Exemples:
      • 1. - un permis [...]
      • a) les agents de l'état [...]
      • 1/ Tout travail ou service [...]
      • - 10) de classer et de conserver [...]
      • * les contrats ou quasi-contrats [...]

    2. le numéro de la loi tel qu'énoncé au tout début de celle-ci:

      Exemples:
      • N095-022
      • N063-43 AN-RM
      • N°93-079/
      • n093-41/
      • 93-057/

    3. la façon d'introduire une même subdivision de loi (nous prenons ici l'exemple de l'article):

      Exemples:
      • ARTICLE 1 ER :
      • Article 1er :
      • ARTICLE 1er/
      • ARTICLE UNIQUE :
      • ARTICLE 26 (bis) :
      • ARTICLE 26 NOUVEAU :
      • Article N040 Nouveau :
      • ARTICLE L.1

    Toujours relativement à la typographie, mentionnons enfin que le corpus présente une série de problèmes que l'on pourrait qualifier de "ponctuels" en raison de leur fréquence très faible, entre autres:

    • des inclusions aléatoires de sauts de page et de sauts de section,
    • des mots écrits en insérant délibérément des espaces entre les lettres:

      Exemple:
      • P A C A G E S

    Haut de la page

    III. Conséquences pour la réalisation du prototype

    Volet "SGMLisation":

    La DTD originale fournie par Documensa fut passablement remodelée afin d'accommoder l'ensemble des structures hiérarchiques observées sur les 37 lois du corpus. Ceci s'est traduit par une plus grande permissivité au niveau des modèles de contenu (content model) de certains éléments. En outre, de nouveaux éléments non prévus à l'origine ont dû être créés, par exemple ceux traduisant des propriétés typographiques: gras, italique, soulignement, etc. (voir la DTD finale).

    L'éventail des syntaxes concurrentes désignant un même constituant logique a nécessité le recours à toute la puissance du langage d'expressions régulières d'OmniMark et à la versatilité de ses commandes. Un même élément, par exemple l'énoncé d'un numéro d'article, devait pouvoir être reconnu en dépit du fait qu'il puisse débuter par une indentation, présenter une combinaison de chiffres et de lettres en guise de numérotation, être entrecoupé d'espaces ou de tabulations, figurer en tout ou en parties en lettres majuscules, être rehaussé d'attributs typographiques, etc. Par exemple: "Article 12 : la présente loi prendra effet [...]". Pour toutes souples qu'elles soient, ces règles de reconnaissance des divers éléments se devaient pourtant d'être suffisamment rigoureuses pour ne pas récupérer de façon erronée certains segments. Ainsi, toujours en ce qui concerne les numéros d'article, une règle trop souple aurait pu relever à tort le passage: "L'article 12 de la présente loi prendra effet [...]".

    L'exercice a donc exigé, préalablement à l'étape de programmation proprement dite, une analyse méthodique et méticuleuse de la macro-structure des textes ainsi que des syntaxes employées, et ce, sur l'ensemble du corpus (et non sur un simple échantillon comme prévu initialement) afin de pouvoir espérer atteindre des rendements élevés en termes de qualité de conversion.

    Volet indexation:

    La nature du corpus, telle qu'explicitée plus haut, a engendré d'énormes problèmes lors des étapes d'indexation du prototype ICATeL. Ainsi, la présence simultanée d'un terme correctement écrit (évolution) et de variantes désaccentuées et/ou incluant des tirets (evolution, é-volution, evo-lution, évoluti-on, etc.), considérées comme autant d'entrées différentes, faussaient considérablement les analyses effectuées par les logiciels, d'autant plus que les mots ainsi "défigurés" étaient très nombreux à l'intérieur du corpus, et chacune de leurs variantes d'une fréquence individuelle d'apparition assez élevée. Les mots mal orthographiés ou comportant des fautes de frappe ainsi que les séquences relevant d'erreurs de dactylographie posaient un problème semblable, quoique les variantes ainsi générées fussent individuellement d'une fréquence d'apparition très basse - généralement unique en fait. Elles étaient cependant tout aussi impossibles à analyser correctement et, prises collectivement, assez nombreuses pour introduire des biais dans les analyses. En fait, les difficultés engendrées par l'ensemble de ces imperfections étaient telles qu'il s'est avéré nécessaire, préalablement à tout traitement d'indexation, de "nettoyer" le corpus en le corrigeant.

    Par ailleurs, si en principe nous n'avions pas à traiter le contenu des tableaux figurant dans le corpus, leur présence s'est révélée embarrassante du fait que NOMINO analyse l'ensemble du texte fourni. La conception purement visuelle des "faux tableaux", notamment, a entraîné de nombreuses aberrations lors de la conversion des textes en format ASCII, conduisant par la suite NOMINO à lier pour l'analyse morpho-syntaxique des éléments qui formaient en fait des entités séparées. Les portions de texte en langue étrangère ont aussi posé problème, car NOMINO ne peut analyser que des documents en français. Quant aux subtilités structurelles, elles ont fait du choix de l'unité d'indexation locale un dilemme pratiquement insoluble.

    Couplées à la nécessité de faire subir au corpus une étape préparatoire de correction, ces difficultés supplémentaires ont compromis sérieusement le déroulement des étapes d'indexation d'ICATeL et ont empêché la mise au point de procédures applicables de façon automatique sur les 37 lois du corpus.


Page précédente Paged'accueil Haut de la page Page suivante

©1997