Description du projet de recherche

Table

Introduction
Contexte
Problématique
Solution envisagée
Méthodologie
Calendrier
Bibliographie

1. Introduction

L'analyse de texte par ordinateur (ATO) est un domaine relativement jeune qui est encore trop peu connu et utilisé. Pourtant, le nombre de personnes dont le travail quotidien fait appel à diverses opérations d'analyse de l'information textuelle ne cesse de grandir, que ce soit dans les entreprises, dans les centres de recherche et dans les services documentaires ou dans le bureau des travailleurs indépendants. En effet, notre "société de l'information" génère sous toutes sortes de formats et sur toutes sortes de supports des documents organisationnels, scientifiques, littéraires qui servent autant à la prise de décision et à l'innovation qu'à la recherche et à l'enseignement. Même si l'on prévoit une intégration progressive des outils linguistiques dans les logiciels bureautiques (Dachelet, 1990, Le Moal, 1994), les méthodologies d'exploitation du contenu des documents sont encore considérées comme l'apanage des chercheurs spécialisés. Après plusieurs dizaines d'années d'efforts au niveau de la recherche, il est donc plus que temps d'entreprendre une diffusion élargie des acquis du domaine. C'est même, en fait, une condition pour dynamiser la recherche.

2. Contexte

Chacun est à même de constater que l'essor de l'informatique a entraîné une beaucoup plus grande disponibilité des documents électroniques, notamment sur le réseau Internet. Cependant, les méthodes d'accès à l'information textuelle et l'exploitation du contenu des textes sont largement déficients. Les logiciels disponibles sont d'un usage très limité (par exemple Philologic 2.0 utilisée avec ARTFL), surtout lorsque comparés aux outils développés au Québec. D'un autre côté, le réseau Internet nous permet aussi de constater la puissance de ce véhicule pour l'enseignement à distance. Ainsi, la School of Information Studies de l'Université de Syracuse aux États-Unis, reconnue comme un chef de file dans l'enseignement des nouvelles technologies de l'information donne sur Internet depuis deux ans un programme complet de maîtrise qui connaît une popularité grandissante: le nombre et la qualité des échanges que permet la formule incitent même les habitants de Syracuse à revendiquer l'autorisation de s'y inscrire.

Les textes électroniques modifient le rapport aux textes et les stratégies de lecture (Fontanille, 1993; Lenoble, 1993). Pour bénéficier pleinement des logiciels disponibles, les utilisateurs doivent prendre conscience de la multiplicité et de la diversité des lectures possibles, de l'importance de la définition claire de leurs objectifs d'analyse, des limites et des présupposés théoriques des outils disponibles. Longtemps intuitive, la lecture travail, ou la lecture professionnelle comme on l'appelle parfois (Hochon et Evrard, 1994), englobe de nombreuses situations et devrait désormais faire l'objet d'un enseignement à une large audience. Sélective, orientée par des objectifs de production, déterminée par le contexte socio-professionnel, elle élimine le simple repérage au profit d'une construction du sens qui s'effectue au moyen de liens et de catégorisations entre une constellation d'éléments d'informations. L'implication du lecteur devient primordiale. Les conséquences de ces nouveaux modes d'appropriation des textes électroniques dans les organisations et les services documentaires (Sutton, 1994) sont encore mal perçues.

Il n'est sans doute pas inutile de situer sur cette toile de fond les acquis que constitue l'expertise accumulée au Québec par ATO (surtout connu sous son nom d'origine Centre d'ATO) et l'École de bibliothéconomie et des sciences de l'information (EBSI).

En effet, la recherche multidisciplinaire en analyse de texte par ordinateur s'inscrit dans une tradition bien ancrée à l'UQAM. En particulier, les activités du Centre d'ATO, fondé en 1983, sont à l'origine de la constitution d'équipes stables dont le travail a obtenu une diffusion et une reconnaissance internationales. Le rattachement de ces équipes au département de linguistique de l'UQAM confirme l'engagement de l'Université dans le domaine de la recherche et de la formation dans ce secteur des industries de la langue. Ce travail en ATO a conduit à des alliances productives avec plusieurs partenaires des secteurs privé et public, dans le domaine des applications comme dans celui de la formation. Le centre d'ATO a d'ailleurs été reconnu et subventionné par le FCAR comme organisme de service à la recherche jusqu'à l'abolition du programme.

Dès le début des années 1980, des chercheurs de l'EBSI ont travaillé de concert avec des membres du futur centre pour l'adaptation et le développement de méthodes d'analyse de textes à des fins de gestion de l'information documentaire. En outre, ATO entretient des liens de coopération internationale soutenus et fréquents, qu'il s'agisse de liens institutionnels et d'ententes France-Québec, ou qu'il s'agisse de projets avec les organismes de la francophonie, en particulier l'ACCT. De son côté l'EBSI, qui est à l'origine de la création de l'AIESI (Association internationale des écoles de sciences de l'information) sous l'égide de l'AUPELF, a piloté plusieurs projets de coopération.

Les chercheurs du groupe développent des logiciels ayant un caractère générique (en particulier SATO et ACTE) susceptibles de supporter un ensemble d'applications dans ce qu'il est convenu d'appeler les industries de la langue. Conscient de l'importance des logiciels SATO et ACTE, le gouvernement du Québec (projet DELTA) a contribué à leur financement. Plusieurs applications utilisent ces logiciels dans le domaine de l'indexation, de l'évaluation de l'écriture et de l'analyse de texte en général. Ces logiciels sont aussi utilisés dans l'enseignement au Québec, en France et ailleurs. Les chercheurs du groupe ont l'habitude d'en tester et évaluer d'autres comme ALCESTE, TACT, SPAD-T, HYPERBASE, NUDIST...

Le développement informatique a toujours été accompagné d'un travail de recherche méthodologique mettant à contribution des chercheurs de plusieurs disciplines et de plusieurs universités: analyse de contenu du discours politique, mesure de la lisibilité des textes étudiés par les élèves aussi bien que des documents d'information des ministères destinés au grand public, construction d'outils originaux d'aide à la classification, à l'indexation et au repérage dans les bases de données bibliographiques et textuelles, aide à l'élaboration de vocabulaires de domaine et de thésaurus, exploitation des résultats de l'interrogation de bases de données pour la veille informationnelle, analyse de textes littéraires, balisage des documents et développement d'interface pour le repérage des documents balisés, construction de bases de données lexicales.

Les chercheurs ont aussi à leur actif de nombreuses expériences de formation en ATO auprès de clientèles variées: professionnels et gestionnaires des organismes publics et parapublics, étudiants et stagiaires de deuxième et troisième cycles. Ils ont été amenés à développer des instruments pédagogiques de support à leur enseignement (manuels, guides, fiches). La réalisation de la plupart de leurs projets s'est accompagnée d'activités de transfert d'expertise à double sens (à partir de et pour les compagnies).

3. Problématique

L'expérience des chercheurs du centre leur a appris qu'un des freins à la diffusion des outils en analyse de texte par ordinateur tient à l'absence d'une formation adéquate dans le domaine. Ainsi, la vision la plus répandue chez la plupart des utilisateurs potentiels est qu'il s'agit d'un domaine très complexe réservé à des spécialistes. Le pendant de cette vision est que plusieurs sont à la recherche du logiciel miracle, "pas compliqué", convivial et qui va, pour ainsi dire, faire l'analyse à la place de l'analyste. C'est ainsi qu'une vision naïve et un peu magique du domaine cohabite avec l'idée de son inaccessibilité.

La réalité est toute autre. D'une part, il n'y a aucune magie reliée à l'analyse de texte par ordinateur. L'informatique est là pour appuyer une démarche analytique dont le contrôle relève en dernière instance de l'analyste lui-même. Pour maîtriser cette démarche, il y a une formation de base à acquérir. De la même façon que l'on n'exige pas de son traitement de texte qu'il produise une rédaction automatique, de la même façon, on ne peut pas exiger de nos outils d'analyse qu'ils produisent une analyse automatique. Bien sûr, le secteur des industries de la langue produit des logiciels dédiés à des tâches spécifiques, comme par exemple l'aide à la correction. Les prérequis méthodologiques sont alors plus limités. Toutefois, plus le correcteur approfondit l'analyse syntaxique et stylistique, et plus les avis produits par le logiciel exigent des connaissances de la langue de la part de l'utilisateur.

En analyse de texte, ces exigences méthodologiques et l'éventail des objectifs recherchés sont plus poussés, ce qui ne signifie pas que seuls les spécialistes puissent se servir de ces outils. C'est pourquoi nous affirmons que la diffusion élargie des habiletés ATO nécessite la constitution d'une culture du domaine. En effet, si les logiciels et les méthodologies d'analyse textuelle restent bien souvent au stade de prototypes, c'est parce que peu d'utilisateurs et de développeurs peuvent s'approprier les savoirs nécessaires pour les apprécier et les faire apprécier.

En effet, la plupart des logiciels commercialisés traitent uniquement des chaînes de caractères et, comme les interfaces sont de plus en plus conviviales, les utilisateurs ont appris à s'en satisfaire. De plus, pour mesurer les bénéfices supplémentaires que peuvent apporter des technologies plus orientées vers la nature textuelle des documents, il faut déjà posséder des notions de linguistique textuelle et de sémiotique et avoir réfléchi sur les processus cognitifs de compréhension des textes, ce qui ne relève pas de la formation de la plupart des professionnels et des gestionnaires. Quant aux concepteurs de logiciels, on ne peut les blâmer d'avoir ignoré pendant longtemps ces méthodes puisque des chercheurs émérites en sciences de l'information comme Salton ou Sparck Jones ont manifesté pendant longtemps un grand scepticisme à leur égard. Il reste d'ailleurs encore beaucoup de réticence de la part d'indexeurs réputés (Mulvany, Weinberg) ou de spécialistes des études littéraires face à l'apport de l'ordinateur pour des tâches considérées comme hautement intellectuelles.

Il faut avouer que linguistes et chercheurs en intelligence artificielle ont surtout mené des travaux théoriques en linguistique générale, longtemps limités à la phrase, et se sont très peu souciés des contextes applicatifs diversifiés. Ce n'est que tout récemment que se sont développées la linguistique de corpus (Rastier, 1991), la logique naturelle (Grize, 1990), les recherches sur les activités cognitives de catégorisation à l'oeuvre dans le discours (Vignaux et Fall, 1990). Enfin, le parti-pris du tout automatique et du système expert qui remplace l'être humain a fait long feu et l'on poursuit désormais un objectif d'assistance à l'être humain pour des tâches bien précises.

Bien que l'objet de la recherche soit complexe et nécessite une approche pluridisciplinaire, trop de développements sont encore menés dans des paradigmes étroits, orientés vers des besoins précis: constitution de terminologies, de thésaurus, de bases de connaissances par exemple, ou analyse de textes en vue d'une analyse de contenu, d'une indexation, d'une analyse littéraire thématique, etc. Ce manque de dialogue et de convergence entre disciplines conduit à des duplications d'effort ou à des approximations théoriques. Certes le contexte applicatif doit absolument être respecté, mais les recherches gagneraient à bénéficier d'un éclairage multiple qui conduirait à une généralisation plus grande des phénomènes, à une meilleure perception des spécificités de chaque approche. Ainsi, la question des unités terminologiques devraient être vues sous les angles conceptuel, lexicologique, syntaxique et documentaire (Lerat, 1995). On pourrait alors prévoir la réutilisation des outils de base avec arrimage des outils "locaux": c'est d'ailleurs ce genre de philosophie qui a donné naissance au TEI (Text Encoding Initiative) pour le marquage des textes aux États-Unis et à GENELEX en Europe pour la modélisation des données lexicales.

4. Solution envisagée

Dans ce contexte, il nous apparaît essentiel d'augmenter de façon significative l'intégration des méthodes et des logiciels en offrant une expertise de pointe à tout le secteur des industries de la langue au Québec, dans la francophonie et sur le plan international. Les outils de l'Internet nous fournissent aujourd'hui des moyens nouveaux de visibilité. De même, les normes SGML et HTML nous fournissent les outils de normalisation dont on a besoin pour assurer un marquage cohérent et facilement communicable de l'information textuelle et documentaire en général. Les possibilités offertes par le marquage HTML nous permettent aussi de réaliser des passerelles vers divers logiciels en fournissant une interface à manipulation directe: boutons, menus, formulaires, etc. Le projet VISIBILITÉ comporte donc deux volets: un premier volet, plus spécifiquement informatique, et un second volet, plus spécifiquement méthodologique.

Le volet informatique consiste à réaliser une implantation client-serveur de logiciels génériques, tels SATO, dans le cadre du World Wide Web ou de circuits équivalents sur l'autoroute de l'information. Il consiste aussi à définir les protocoles nécessaires à un échange de l'information selon la sémantique spécifique des divers outils génériques et à les traduire conformément à la norme SGML. Ainsi, on pourra lier de façon logique les définitions, les explications, les commandes et les exemples.

Le WWW constitue, on le sait, l'une des ressources les plus spectaculaires et les plus populaires du réseau Internet. C'est aussi une application du principe de marquage normalisé des documents. Donc, en plus de constituer un outil de diffusion remarquable, le WWW avec son protocole de marquage HTML est lui-même un objet de recherche pour les industries de la langue. HTML a d'abord été conçu comme un format de diffusion de documents hypertextuels. Cependant, il est aussi possible d'utiliser le protocole comme outil d'interface entre un programme et l'utilisateur dans le contexte d'une architecture client-serveur. Nous avons déjà commencé à prototyper un telle interface pour le logiciel SATO. Ce premier effort nous a convaincu de la faisabilité et de la pertinence d'une telle approche.

Deux situations pourraient bénéficier d'une telle stratégie d'implantation avec des retombées certaines pour les industries de la langue. En effet, cette approche permettrait une exploitation économiquement rentable des gros corpus institutionnels: banques de lois et procédures, de jurisprudence, articles scientifiques, journaux, etc. Outre l'accès à ces données à travers les systèmes classiques de bases de données textuelles, il serait possible d'offrir au client l'accès à des analyseurs plus complexes supportés par un logiciel générique tel SATO.

La deuxième situation qui rendrait profitable une telle approche a trait à la formation et à la diffusion des produits et méthodes en analyse de texte par ordinateur. Or, pour être efficace, cette diffusion doit être encadrée tout en bénéficiant d'une visibilité maximale. Une implantation d'outils comme SATO dans le cadre du WWW vise donc directement cet objectif de diffusion-formation. Il faut permettre au plus grand nombre d'acquérir cette culture en ayant accès en mode démonstration aux outils et aux méthodes du domaine. Par l'Internet, il est possible d'entrevoir un accès contrôlé à des outils d'analyse de texte, à des corpus, à des bases de données lexicales, à des fiches méthodologiques, etc.

Le volet méthodologique vise la conception d'une organisation intégrée d'un certain nombre de principes méthodologiques en ATO et la définition d'une organisation générale des diverses méthodes développées par les chercheurs associés au projet. Ce volet méthodologique va se traduire par la production de pages écrans permettant une diffusion cohérente de ces méthodes d'ATO dans un contexte hypertextuel. À titre d'exemple, voici à quoi pourrait ressembler une telle organisation. Les fiches méthodologiques pourraient être regroupées en quatre rubriques principales.

D'abord, on aurait les méthodologies de base : définitions (alphabets et codes d'écriture, lexèmes, bases de données lexicales, occurrences, syntagmes...); problèmes inhérents aux textes (sigles, abréviations, traits d'union, noms propres...); problèmes linguistiques généraux (locutions, mots composés, catégorisation grammaticale, levée des ambiguïtés en contexte...). Au niveau formel, ces fiches pédagogiques partageraient une même structure de base, par exemple: une présentation générale, les points de vue de différentes disciplines, des exemples d'applications: corpus-témoin, commandes, résultats. Ensuite, on aurait un ensemble de cheminements typiques : analyse de discours (de contenu); contrôle du vocabulaire; constitution de thésaurus; indexation assistée; évaluation de l'écriture. Troisièmement, on aurait quelques applications déjà largement fonctionnelles: SATO-CALIBRAGE pour l'évaluation de l'écriture; GRAMR et DESAMBIG pour la catégorisation grammaticale et la levée des ambiguïtés en contexte; ACTE-PV pour le marquage et l'analyse assistée de procès-verbaux, etc. Finalement, on aurait un ensemble de fiches destinées à documenter les commandes des outils informatiques, particulièrement le logiciel SATO. Il s'agirait donc d'une version hypertexte du Manuel de référence.

5. Méthodologie

Pour le volet méthodologique, nous entendons tenir un séminaire de recherche pour étudier la comparaison des besoins et approches, la recherche des aspects communs et des spécificités, l'approfondissement des bases théoriques. Ce séminaire doit donner la direction pour la rédaction des fiches avec exemples d'applications à l'appui et publication d'articles et conférences. Donc, nous allons d'abord travailler à la définition du cadre d'ensemble du contenu méthodologique. Sur cette base, nous allons convenir d'un format général des fiches. La production elle-même implique un processus itératif: identification en séminaire du problème à couvrir; constitution d'un groupe de travail; production d'un ensemble de fiches interreliées; évaluation des fiches par le séminaire; approbation et standardisation; mise en réseau finale avec test auprès de groupes témoins (des groupes cours par exemple).

Pour le volet informatique, nous entendons d'abord tenir des sessions de travail pour familiariser chacun des partenaires à nos outils respectifs. Ensuite, nous allons ramifier le travail sur deux terrains. Le premier terrain consiste à élaborer les définitions de types de documents (DTD) qui seront à la base de tout le système. Les DTD constituent en effet l'aboutissement de la formalisation syntaxique et sémantique des structures de chacun des logiciels et types de document. Le deuxième terrain concerne plus directement les problèmes d'implantation, en particulier: la transformation des sorties de SATO et des autres logiciels selon les protocoles SGML et HTML; la construction des passerelles entre le serveur HTTPD et les logiciels.

Finalement, nous allons constituer des groupes de travail réunissant les personnels des divers partenaires afin d'implanter des applications (avec leur dimension méthodologique et informatique) dans le contexte du WWW. Pour ce faire nous allons procéder par projets pilotes auxquels se grefferont des étudiants. Nous allons appliquer l'approche par prototypage, que nous utilisons depuis de nombreuses années, et qui a l'avantage d'impliquer les utilisateurs tout au long du processus de mise au point. Rappelons que les applications choisies sont déjà largement fonctionnelles dans le cadre d'une utilisation sur micro-ordinateur.

6. Calendrier

Pour la première année, nous visons la mise sur pied d'un serveur HTTPD sur le réseau Internet. Ce site devrait permettre minimalement l'accès à SATO 4, au Manuel de référence en format SGML, et à un certain nombre de corpus. Nous visons aussi à réaliser les fiches méthodologiques de base et à donner accès à quelques cheminements typiques.

La deuxième année sera plus particulièrement consacrée à élargir la couverture du contenu méthodologique, en particulier au niveau des cheminements typiques et des applications. Nous allons aussi approfondir le problème des passerelles entre les divers logiciels et serveurs.

6. Bibliographie

DACHELET, Roland. État de l'art de la recherche en informatique documentaire: la représentation des documents et l'accès à l'information. Le Chesnay (France): INRIA; 1990; 32 p.

FONTANILLE, Jacques. L'informatique littéraire: de quelques effets corollaires. In; Alain Villemin, éd. Les banques de données littéraires comparatistes et francophones. Limoges: Presses Universitaires de Limoges; 1993: 11-16.

GRIZE, Jean-Blaize. Logique et langage. Paris: Ophrys, 1990.

HOCHON, J.-C.; ÉVRARD, F. Lecture professionnelle et gestion personnalisée de documents textuels. ICO Québec; 6(1-2); printemps 1994: 9-18.

LE MOAL, J.-C., éd. Le traitement électronique du document. Cours INRIA, 3-7 octobre 1994, Aix-en-Provence. Paris: ADBS; 1994.

LENOBLE, Michel. Une génération perdue. Texte; 13-14; 1993: 263-274.

LERAT, Pierre. Les langues spécialisées. Paris : Presses Universitaires de France; 1995. 198 p.

SUTTON, Brett, éd. Literary Texts in an Electronic Age; Scholarly Implications and Library Services. University of Illinois at Urbana-Champaign, Graduate School of Library and Information Science; 1994. 207 p.

RASTIER, François. Sémantique et recherches cognitives. Paris: Presses Universitaires de France; 1991.

VIGNAUX, Georges; FALL, Khadiyatoulah. Genèse et construction des représentations; les discours sur l'informatisation. Protée; 18(2); printemps 1990: 33-44.

- Commentaires: visib@corpus.ato.uqam.ca -