TravauxLa mise en place de l'Encyclopédie virtuelle des révolutions avance au rythme permis par le financement du projet. Alors que la modélisation informatique est très avancées et n'attend plus que son implantation effective, la préparation des données avance régulièrement. Outre le travail laborieux de numérisation des éditions anciennes, nous avons concentré le travail sur les Procès-verbaux du Comité d'instruction publique. Voici où nous en étions à la fin de l'année 2010. L'édition nouvelle des procès-verbaux, produite par Josiane Boulad-Ayoub et Michel Grenon, a été publiée en 1997 chez L'Harmattan en 9 tomes totalisant plus de 6000 pages. La première étape du projet vise à préparer les données afin de produire un ensemble de documents balisés selon des normes conformes aux proposition de la Text Encoding Initiative (TEI). Pour passer du marquage de style au balisage symbolique de la structure formelle des textes, nous avons mis en place une procédure de traitement semi-automatique selon le nouveau modèle de publication que nous proposons. Chacun des documents sera accompagné d'une fiche de métadonnées décrivant le document et ses liens avec les autres documents et la collection complète, le toute selon un modèle de données bien documenté ayant déjà fait l'objet de publications (Daoust et coll., 2008) et de thèses (Daoust 2011). La préparation de ces documents est une tâche importante qui requiert plusieurs étapes. La première étape, maintenant complétée, a consisté à extraire les données des logiciels propriétaires utilisés pour l'édition papier et à les convertir au format texte Unicode. Cette étape comprend aussi un découpage du flux textuel en fichiers électroniques distincts reflétant les unités documentaires d'origine. Le nombre total d’unités documentaires à traiter dépasse 3300. Pour chacun de ces documents, les métadonnées prennent plusieurs formes. On a d'abord une fiche Dublin Core. On a ensuite un certain nombre de relations RDF (Ressource Description Framework) qui relient: les procès-verbaux; les annexes aux procès-verbaux; les notes des procès-verbaux et des annexes; les autres documents d'analyse. De plus, comme chacun de ces documents est en format TEI, ils contiennent une entête TEI avec des métadonnées décrivant, notamment, les balises utilisées et la relation avec la source initiale en format imprimé. La deuxième étape de préparation de cette édition électronique consiste à produire un balisage TEI cohérent rendant compte des composantes logiques des documents et de l'appareil critique mis en place par les auteurs des éditions papiers existantes. Ce faisant, l'édition électronique sera considérablement plus riche que l'édition imprimée puisqu'elle comprend un marquage symbolique sous forme de balises permettant d'exploiter les textes par les outils d'analyse et de navigation qui seront mis en place dans une troisième phase du projet. Par exemple, l'édition papier est accompagnée d'un index alphabétique et analytique très développé. Mais, l'édition imprimée des procès-verbaux ne signale pas les liens réciproques entre le texte des procès-verbaux et les rubriques de l'index. Le marquage de ces liens dans l'édition électronique permettra au lecteur une consultation simple des notes, des rubriques de l'index et de tous les commentaires critiques des documents d'introduction et d'analyse. La troisième étape consiste à verser les documents et leurs métadonnées dans un dépôt de données adapté aux corpus de recherche afin d'en assurer la pérennité et le repérage pour la constitution de corpus de recherche ou d'éditions hypertextuelles destinées à des publics plus larges. Le dispositif de balisage des fichiers de la version électronique des procès-verbaux repose sur l'utilisation du logiciel d'analyse de texte SATO (Daoust 2007). On pourrait qualifier le logiciel SATO de tableur textuel. Le système permet d'accueillir un corpus brut ou déjà annoté selon une syntaxe spécifique ; il permet de l'annoter ou de changer l’annotation déjà présente, de catégoriser le corpus selon des grilles définies par l'analyste et une fois décrit, de l’exploiter de multiples manières. SATO permet de garder une trace complète du processus de description et d'analyse du corpus. Le logiciel offre aussi la possibilité de programmer des dispositifs de lecture électronique (Daoust, 2002) et, donc, d'établir des protocoles d'analyse personnalisés et adaptés à chaque type de discours.
Chacun des milliers de documents que comporte la collection des Procès verbaux est soumis à un ensemble de scénarios SATO dont les résultats sont ensuite vérifiés par les assistants étudiants et les chercheurs. Ces procédures permettent d'identifier les noms propres (personnes et lieux), les locutions terminologiques et les mots composés, de même que les diverses parties des documents (entête, signature, appel de note, etc.). C'est aussi à cette étape d'analyse que les liens vers les index sont déposés sur le texte intégral et validés selon leur pertinence. Les index eux-mêmes, avec au-delà de 6400 entrées, ont exigé un travail important visant à les transformer en véritables ressources informatiques alimentant les scénarios de marquage des textes intégraux. Tout ce dispositif est maintenant au point et est disponible pour la poursuite du travail à grande échelle. Actuellement, environ 15% de la collection a été balisée. Dans le cadre d'une subvention d'infrastructure obtenue par le professeur Joseph-Yvon Thériault, titulaire de l'ancienne Chaire du Canada en Mondialisation, Citoyenneté et Démocratie, un système de dépôt de données pour corpus de recherche est envisagé pour recueillir, notamment, les fichiers du projet. Le dépôt de données permet la conservation et la diffusion des textes sources. C'est par ce système qu'on assure la publication et la dissémination des métadonnées qui agissent comme clés d'accès aux documents.
|