Travaux

La mise en place de l'Encyclopédie virtuelle des révolutions avance au rythme permis par le financement du projet.

Alors que la modélisation informatique est très avancées et n'attend plus que son implantation effective, la préparation des données avance régulièrement. Outre le travail laborieux de numérisation des éditions anciennes, nous avons concentré le travail sur les Procès-verbaux du Comité d'instruction publique. Voici où nous en étions à la fin de l'année 2010.

L'édition nouvelle des procès-verbaux, produite par Josiane Boulad-Ayoub et Michel Grenon, a été publiée en 1997 chez L'Harmattan en 9 tomes totalisant plus de 6000 pages.

La première étape du projet vise à préparer les données afin de produire un ensemble de documents balisés selon des normes conformes aux proposition de la Text Encoding Initiative (TEI). Pour passer du marquage de style au balisage symbolique de la structure formelle des textes, nous avons mis en place une procédure de traitement semi-automatique selon le nouveau modèle de publication que nous proposons. Chacun des documents sera accompagné d'une fiche de métadonnées décrivant le document et ses liens avec les autres documents et la collection complète, le toute selon un modèle de données bien documenté ayant déjà fait l'objet de publications (Daoust et coll., 2008) et de thèses (Daoust 2011).

La préparation de ces documents est une tâche importante qui requiert plusieurs étapes. La première étape, maintenant complétée, a consisté à extraire les données des logiciels propriétaires utilisés pour l'édition papier et à les convertir au format texte Unicode. Cette étape comprend aussi un découpage du flux textuel en fichiers électroniques distincts reflétant les unités documentaires d'origine. Le nombre total d’unités documentaires à traiter dépasse 3300. Pour chacun de ces documents, les métadonnées prennent plusieurs formes. On a d'abord une fiche Dublin Core. On a ensuite un certain nombre de relations RDF (Ressource Description Framework) qui relient: les procès-verbaux; les annexes aux procès-verbaux; les notes des procès-verbaux et des annexes; les autres documents d'analyse. De plus, comme chacun de ces documents est en format TEI, ils contiennent une entête TEI avec des métadonnées décrivant, notamment, les balises utilisées et la relation avec la source initiale en format imprimé.

La deuxième étape de préparation de cette édition électronique consiste à produire un balisage TEI cohérent rendant compte des composantes logiques des documents et de l'appareil critique mis en place par les auteurs des éditions papiers existantes. Ce faisant, l'édition électronique sera considérablement plus riche que l'édition imprimée puisqu'elle comprend un marquage symbolique sous forme de balises permettant d'exploiter les textes par les outils d'analyse et de navigation qui seront mis en place dans une troisième phase du projet. Par exemple, l'édition papier est accompagnée d'un index alphabétique et analytique très développé. Mais, l'édition imprimée des procès-verbaux ne signale pas les liens réciproques entre le texte des procès-verbaux et les rubriques de l'index. Le marquage de ces liens dans l'édition électronique permettra au lecteur une consultation simple des notes, des rubriques de l'index et de tous les commentaires critiques des documents d'introduction et d'analyse.

La troisième étape consiste à verser les documents et leurs métadonnées dans un dépôt de données adapté aux corpus de recherche afin d'en assurer la pérennité et le repérage pour la constitution de corpus de recherche ou d'éditions hypertextuelles destinées à des publics plus larges.

Le dispositif de balisage des fichiers de la version électronique des procès-verbaux repose sur l'utilisation du logiciel d'analyse de texte SATO (Daoust 2007). On pourrait qualifier le logiciel SATO de tableur textuel. Le système permet d'accueillir un corpus brut ou déjà annoté selon une syntaxe spécifique ; il permet de l'annoter ou de changer l’annotation déjà présente, de catégoriser le corpus selon des grilles définies par l'analyste et une fois décrit, de l’exploiter de multiples manières. SATO permet de garder une trace complète du processus de description et d'analyse du corpus. Le logiciel offre aussi la possibilité de programmer des dispositifs de lecture électronique (Daoust, 2002) et, donc, d'établir des protocoles d'analyse personnalisés et adaptés à chaque type de discours.

SATO est un logiciel destiné à supporter une variété de stratégies d'analyse textuelle. Il repose sur une reconfiguration du texte linéaire (chaîne de caractères) sous la forme d'un plan lexique/occurrences. L'axe lexical répertorie l'ensemble des chaînes de caractères constituant les mots, ponctuations, et toutes chaînes de caractères admissibles à un alphabet défini par l'utilisateur. L'axe des occurrences représente l'ordonnancement des unités lexicales suivant l'ordre naturel du texte (de gauche à droite et de bas en haut pour les langues latines).

L'objectif de cette reconfiguration est de faire émerger la dimension lexicale du texte. Il est à noter qu'à part quelques normalisations éditiques mineures, cette reconfiguration est non destructrice, c'est-à-dire qu'elle permet à tout moment de reconstituer le texte original dans sa forme linéaire. Cette reconstitution à la volée permet de produire des éditions sur mesure avec mise en évidence des mots (couleur, soulignement, etc.) selon des critères définis par l'analyste. Il est possible d'exporter ces éditions dans des formats facilitant leur traitement par d'autres logiciels.

L'émergence de la dimension lexicale du texte dans le plan lexique/occurrences permettra de distinguer la catégorisation hors contexte, qui appartient au lexique de la langue ou du domaine, de la catégorisation contextuelle, qui appartient davantage à l'énoncé et à la structure discursive. Dans SATO, les systèmes de catégorisation sont appelés propriétés. Exception faite de quelques propriétés prédéfinies par le système, l'utilisateur définit lui-même ses propriétés selon les besoins de son analyse.

La catégorisation des formes lexicales ou des occurrences au moyen de ces propriétés peut se faire par manipulation directe à l'écran, pré-codage sur le texte ou par divers dispositifs algorithmiques: dictionnaires, patrons morphologiques ou filtres sur les propriétés, patrons de cooccurrences positionnelles ou booléennes. Le système permet de constituer ses propres dictionnaires. Des dispositifs d'héritage permettent de définir des propriétés textuelles projetées à partir du lexique ou des propriétés lexicales condensées à partir des occurrences. Le filtre est un patron syntaxique permettant de désigner et de rassembler un ensemble de formes lexicales ou d'occurrences par des contraintes sur les caractères de la chaîne ou ses valeurs de propriété.

La définition des contextes pour les concordances, cooccurrences ou segments calculés s'effectue à la volée selon les besoins de l'analyse. On peut aussi définir au besoin des sous-textes et leurs lexiques associés. Le logiciel fournit des dispositifs de comptage permettant de produire diverses matrices d'occurrences dans les segments ainsi constitués. Des mesures statistiques simples permettent de révéler ou de contraster la distribution des fréquences associées aux occurrences spécifiées par un filtre SATO. Les matrices produites par le logiciel peuvent servir de données pour des logiciels d'analyse statistique.

La trace de toutes les manipulations effectuées sur un corpus est enregistrée dans un journal cumulatif daté. On peut, par simple copier-coller des commandes ainsi tracées, constituer des fichiers de commandes appelées scénarios. Ces scénarios permettent d'automatiser des fonctions d'analyse et de traitement qui pourront par la suite être appliquées sur divers corpus.

SATO fonctionne en mode client-serveur au moyen d'une interface HTML standard. Le logiciel est accompagné d'un environnement de gestion HTML permettant de définir des comptes d'usagers, d'ouvrir des sessions qui pourront être servies en parallèle. Le système permet de constituer des banques de textes ainsi que des librairies de scénarios et de dictionnaires. L'interface HTML est modifiable à loisir pour créer des applications particulières dans diverses langues. SATO est accessible gratuitement sur le Web, notamment sur les serveurs du Centre d'analyse de texte par ordinateur de l'UQAM : http://strophe.ato.uqam.ca/

Chacun des milliers de documents que comporte la collection des Procès verbaux est soumis à un ensemble de scénarios SATO dont les résultats sont ensuite vérifiés par les assistants étudiants et les chercheurs. Ces procédures permettent d'identifier les noms propres (personnes et lieux), les locutions terminologiques et les mots composés, de même que les diverses parties des documents (entête, signature, appel de note, etc.). C'est aussi à cette étape d'analyse que les liens vers les index sont déposés sur le texte intégral et validés selon leur pertinence. Les index eux-mêmes, avec au-delà de 6400 entrées, ont exigé un travail important visant à les transformer en véritables ressources informatiques alimentant les scénarios de marquage des textes intégraux. Tout ce dispositif est maintenant au point et est disponible pour la poursuite du travail à grande échelle. Actuellement, environ 15% de la collection a été balisée.

Dans le cadre d'une subvention d'infrastructure obtenue par le professeur Joseph-Yvon Thériault, titulaire de l'ancienne Chaire du Canada en Mondialisation, Citoyenneté et Démocratie, un système de dépôt de données pour corpus de recherche est envisagé pour recueillir, notamment, les fichiers du projet. Le dépôt de données permet la conservation et la diffusion des textes sources. C'est par ce système qu'on assure la publication et la dissémination des métadonnées qui agissent comme clés d'accès aux documents.