| |||||
Page précédente![]() |
Page d'accueil |
Page suivante |
|||
| Présentation générale d'ICATeL | |||||
|
Auteures: Cynthia Delisle, Marie Hélène Vézina
Mots-clés: automatisation, balisage SGML, indexation, NOMINO, OmniMark, SATO, textes juridiques. URL: http://www.ling.uqam.ca/ato/activites/icatel/presenta.htm Date de création: 22 août 1997 Dernière version: 4 décembre 1997 Date de la prochaine révision: non prévue pour le moment | |||||
|
I. Présentation générale d'ICATeL
1.1. Mise en contexte L'époque à laquelle nous vivons est souvent qualifiée d'ère de l'information, et on peut d'ores et déjà prédire que les historiens des générations futures conserveront ce vocable pour la désigner. Et ce sera parfaitement justifié: d'une part, nous assistons présentement à une production sans précédent de documents de toutes sortes, de tous les formats, sur tous les sujets; d'autre part, et parallèlement à cette énorme activité de création, l'informatisation sans cesse croissante et la naissance des médias électroniques rendent en quelque sorte une "seconde jeunesse" aux documents déjà existants, qui deviennent accessibles (souvent simultanément) à un grand nombre de personnes. Fondamentalement positive, cette "surenchère informationnelle" engendre néanmoins certains problèmes, dont le plus épineux est peut-être celui concernant la nécessité de disposer d'un accès facile, rapide et peu coûteux à l'information désirée. Et, dans cette optique, la production de versions électroniques des documents, bien qu'essentielle, ne saurait suffire: à quoi bon disposer de milliers de textes si l'ignorance du contenu de ceux-ci rend tout choix éclairé impossible? C'est dire qu'une indexation préalable rigoureuse s'avère elle aussi nécessaire. Dans cet ordre d'idée, des procédures permettant d'assurer une disponibilité rapide à la fois des documents eux-mêmes et des idées qu'ils renferment doivent être développées dans les plus brefs délais, sous peine autrement de demeurer en deçà des immenses possibilités de la technologie actuelle en matière de production, d'utilisation et de gestion de l'information. Parmi les solutions potentielles envisagées, on retrouve notamment la mise au point de systèmes d'indexation et de balisage des textes. Ces systèmes, en plus de faciliter l'interrogation, le repérage et la restitution de l'information, ont également l'avantage d'influer de façon bénéfique sur son échange et sa réutilisation. Comme, par ailleurs, l'utilisation de la machine est en principe synonyme d'économies, de gain de temps et de traitement facilité des gros volumes de données, l'automatisation des processus intrinsèques à la mise en place de tels systèmes, même partielle, apparaît comme une voie d'avenir intéressante. ICATeL fut conçu et réalisé en gardant à l'esprit les différents éléments de cette problématique. Prototype rétrospectif et automatique d'indexation et de balisage SGML[1], ICATeL vise à fournir, à partir d'un texte brut, un texte enrichi avec des balises SGML identifiant, d'une part, la structure logique des textes de loi et, d'autre part, des mots ou syntagmes présents dans les documents et considérés comme représentatifs du contenu textuel en vertu de certains critères: situation dans la macro-structure du texte (par exemple dans un titre), mise en valeur grâce à des artifices typographiques tels le gras ou l'italique, fréquence d'apparition, etc. Le projet fut entrepris à l'initiative de M. Marc-André Ledoux, de Documensa. Le prototype constitue d'ailleurs, en quelque sorte, une étape intermédiaire dans le processus global de production du cd-rom du Journal officiel du Mali, conçu par Documensa et interrogeable via les fonctionnalités de recherche propres à Edibase-SGML, système de gestion de bases de données textuelles (SGBDT) produit par cette même firme. ICATeL fait également partie intégrante de VISIBILITÉ, projet de recherche de plus grande envergure mené conjointement par l'EBSI et le Service ATO, qui vise à assurer une plus grande diffusion aux réalisations de ces deux organismes. 1.2. Description du prototypeLe prototype ICATeL a été mis au point à l'aide du traitement de texte WordPerfect, de l'analyseur morpho-syntaxique NOMINO, du convertisseur SGML OmniMark et du concordancier SATO. Bien que les diverses étapes de traitement composant le prototype constituent un tout indissociable et qu'elles soient inextricablement imbriquées entre elles, on peut néanmoins distinguer deux grandes catégories d'opérations: l'automatisation du balisage SGML et la mise au point de mécanismes automatiques d'indexation des textes du corpus. Volet "SGMLisation": Volet indexation:
Étudiantes de l'EBSI
Professeurs de l'EBSI
Consultants
| |||||
| _______________________________________________________________ 1 La norme SGML (Standard Generalized Markup Language; ISO/IEC 8879) consiste en un métalangage définissant des méthodes de représentation logique des textes électroniques indépendamment de l'environnement informatique utilisé. Une telle représentation s'appuie sur un balisage descriptif qui permet d'encoder de façon structurée le contenu logique des divers constituants du texte. Permettant de rendre explicite une sémantique textuelle implicite, le balisage SGML facilite grandement le repérage, l'analyse et la réutilisation de l'information. [retour au texte] | |||||