Chaire MCD ATO-MCD : corpus et analyses en ligne
Chaire de recherche du Canada en Mondialisation, Citoyenneté et Démocratie
Ressources
· Information
· SATO
· Sémato
· Nomino

Projets
· Duplessis
· Discours constitutionnel canadien
· Discours néolibéral
· Organisations internationales
· Espace délibératif mondial

Explorer les projets par
· Période
· Caractéristiques géographiques
· Locuteurs
· Langue

Information

Le projet ATO-MCD a pour principal objectif de fournir à ses usagers la possibilité de faire de l'analyse de discours assistée par ordinateur en ligne, en fournissant à la fois les outils d'analyse (notamment les logiciels SATO, Nomino et SEMATO) et les bases de données textuelles, les corpus, rassemblées par le Groupe de recherche en analyse du discours politique et la Chaire de recherche du Canada en mondialisation, citoyenneté et démocratie de l'Université du Québec à Montréal depuis près de vingt ans.

Partageons notre expertise !!

Projets

Le projet ATO-MCD permet à ses usagers d'accéder aux différents corpus réunis dans le cadre des travaux de la Chaire de recherche du Canada en mondialisation, citoyenneté et démocratie (Chaire MCD) et du Groupe de recherche en analyse du discours politique (GRADiP) qui y est rattaché. Les recherches menées au sein de la Chaire MCD et du GRADiP sont essentiellement centrées sur l'analyse du discours politique. Les corpus rassemblés reflètent ainsi ce choix théorique. Nous partons de l'hypothèse primordiale que, comme toutes les autres formes de discours, le discours politique rempli une double fonction de représentation et de production de la réalité. Cependant, le qualificatif de politique qui lui est accolé lui confère une spécificité qu'il convient de souligner. Afin de saisir adéquatement le concept de discours politique, il convient d'en délimiter la portée. Le discours politique n'est pas avant tout un discours théorique ou doctrinaire. Il est discours de masse qui circule dans les interstices des sphères privée et publique. La cohérence et l'homogénéité ne constituent pas sa caractéristique première. Il est au contraire hétérogène et polémique, point de vue parmi d'autres points de vue dans le jeu des échanges discursifs. Il traite de questions particulières dans des lieux distincts, tout en ayant tendance à élargir l'espace du questionnement et des institutions qui participent au débat. Nous considérons que le discours politique contribue de manière prévalante à la représentation de l'espace, de la communauté, des rapports sociaux et du rapport de l'individu à la société (l'éthique).

Les visiteurs du projet ATO-MCD peuvent consulter les corpus des projets suivants, les manipuler, les interroger et les analyser, notamment à l'aide du logiciel SATO.

Duplessis (1937-1960)
· Fiche descriptive
· Liste des fichiers

Discours constitutionnel canadien (1941-1987)
· Fiche descriptive
· Liste des fichiers

Discours néolibéral (1979-1996)
· Fiche descriptive
· Liste des fichiers

Organisations internationales (1970-1999)
· Fiche descriptive
· Liste des fichiers

Espace délibératif mondial (1995-2002)
· Fiche descriptive
· Liste des fichiers

Objectifs du projet ATO-MCD

Le projet ATO-MCD consiste en la mise en place d'une infrastructure matérielle, logicielle et textuelle permettant de livrer une base de données réseau accessible, fonctionnelle et exploitable par internet aux chercheurs intéressés par l'analyse de textes par ordinateurs.

Ce projet financé par la Fondation canadienne pour l'innovation (FCI) est le fruit d'une collaboration entre la Chaire de Recherche du Canada en Mondialisation, Citoyenneté et Démocratie (Chaire MCD) et le Centre d'analyse de textes par ordinateur (Centre ATO) de l'Université du Québec à Montréal. Ce projet mobilise plusieurs chercheurs.

Le Projet ATO-MCD a ainsi pour principal objectif de soutenir la recherche de pointe en analyse de discours assistée par ordinateur, que celle-ci soit menée au sein de la Chaire MCD ou du Centre ATO, développée en partenariat avec d'autres unités de recherches, ou entreprise de manière autonome, sur une base collective ou individuelle, puisque cette base de données peut être implémentée et interrogeable à distance.

Description des infrastructures du Projet

L'infrastructure proposée est une base de données que la Fondation canadienne pour l'innovation (FCI) définit comme " un outil de recherche conçu et structuré pour l'accès et l'exploitation de données (...) centralisée ou répartie dans un réseau". Elle vise à doter le Canada d'une ressource unique de données textuelles (majoritairement en langue française mais progressivement enrichies de documents en langue anglaise et espagnole conformément au plan d'internationalisation du projet) portant sur le discours politique et d'une plate-forme d'analyse de texte par ordinateur - SATO-XML - accessible par internet et dotée d'applications pour l'analyse du discours politique. Le Portail ATO-MCD constitue un lieu, accessible par Internet, pour l'accueil, la conservation et l'exploitation scientifique de corpus de textes numérisés provenant de la communauté canadienne et internationale des chercheurs en analyse du discours. Cette base de données comporte la conception, le développement et l'intégration de trois éléments d'infrastructure : textuel, logiciel et matériel.

L'infrastructure textuelle : L'infrastructure textuelle résulte de l'organisation et de la normalisation des données accumulées depuis vingt ans par les chercheurs associés à la Chaire. Cette infrastructure sera implémentée progressivement en fonction des acquis des recherches en cours. L'objectif est de rendre les corpus et les outils d'analyse accessibles et exploitables, à des fins de recherche, par internet. Dans son état actuel la banque de données de textes numérisés comprend des dizaines de milliers de pages représentatives du discours politique émanant de la sphère publique (discours du Trône et du budget, discours constitutionnel, discours des partis politiques, discours des grandes commissions d'enquête, etc.) et de la sphère privée (associations patronales et syndicales, discours des Églises et des mouvements sociaux, etc.) depuis la deuxième guerre, tant au niveau fédéral que provincial (Québec). Elle est aussi constituée du discours produit par les grandes organisations internationales depuis le début des années 70 susceptible d'avoir un impact sur l'évolution de la démocratie et du politique au Canada. Tous ces textes ont fait l'objet d'une catégorisation socio-sémantique permettant leur exploitation dans le format XML. Cette normalisation permet de créer un protocole d'intégration de nouveaux corpus utile à la mise à jour régulière de la base.

L'infrastructure logicielle : Le système d'analyse de texte par ordinateur, SATO, transforme les textes de leur état statique, sous forme de chaînes de caractères, en textes "vivants" que l'on peut annoter, comparer et révéler. Le système demeure l'outil privilégié d'analyse dans le cadre du programme de recherches de la Chaire, ainsi que l'outil d'accès et d'exploitation des données textuelles. Pour ce faire, SATO a été progressivement adapté, par rapport à ses versions antérieures DOS et HTML, afin de le rendre conforme à la norme XML et intégré à une plate-forme d'exploitation regroupant divers modules informatiques traitant des données en XML. XML, rappelons-le, est un langage général de balisage des documents électroniques qui permet de publier, conserver, annoter et transformer des textes selon un protocole indépendant des formats propriétaires. La conversion des données, des logiciels et des interfaces à la norme XML facilite l'intégration de l'ensemble de la chaîne de traitement : documentation et archivage sur la base d'une définition rigoureuse des données, ajout et maintenance de données provenant de diverses sources, interopérabilité des modules d'analyse, diffusion auprès de la communauté des chercheurs. Outre SATO, l'infrastructure logicielle qui permet l'exploitation de la base de données comprend l'intégration des éléments suivants :
  • des logiciels de gestion pour l'archivage et le repérage de données textuelles normalisées ;
  • un système d'assistance à la recherche intelligente dans des bases textuelles, Guidexpert-ATO ;
  • des logiciels d'analyse statistique adaptés au traitement de données textuelles intégrées à l'environnement ;
  • des logiciels de travail coopératif et des outils de développement Internet ;
  • un ensemble de tutoriels permettant l'apprentissage en ligne du système.
L'infrastructure matérielle : L'infrastructure matérielle est centrée sur un ensemble de serveurs d'applications performants capables de supporter un traitement analytique sur des gros volumes de texte. Elle peut accueillir, conserver et intégrer des nouveaux corpus au gré de la demande puisque sont rendus accessibles et exploitables par internet les outils de calculs appliqués à la base de données de discours politiques. Cela, dans le but de permettre un accès élargi à cette puissance de calcul en offrant à la communauté des chercheurs de normaliser et traiter leurs propres corpus. Cette infrastructure est logée à l'Université du Québec à Montréal, dans des locaux adaptés du Centre ATO et du Groupe de recherche en analyse du discours politique (GRADiP).

Chaire MCD

La Chaire de Recherche du Canada en Mondialisation, Citoyenneté et Démocratie (Chaire MCD) privilégie l'analyse des mutations du politique et de l'émergence de nouvelles régulations du point de vue de leur construction dans l'ordre de la représentation. L'accent est mis sur la contribution du discours politique à la production et à la reproduction des formes sociales. Cela implique la poursuite du développement d'une approche intégrée d'analyse de texte par ordinateur, développée depuis le début des années 80 par le GRADiP de l'UQAM dirigé par le titulaire de la Chaire, le professeur Jules Duchastel. Ces recherches du GRADiP ont permis la constitution d'un ensemble de corpus (données textuelles et lexicales) du discours politique relatif au développement de la démocratie, de la citoyenneté et de l'État au Canada, ainsi qu'aux visions différentes de la mondialisation véhiculées par les grandes organisations internationales à vocation économique, les organisations non-gouvernementales et les groupes d'intérêts économiques. Ces corpus réunissent en format numérique plusieurs milliers de pages de texte en langue française catégorisées selon des lexiques socio-sémantiques. Ils forment un ensemble unique au pays permettant de retracer, suivre et comprendre les transformations du politique au Canada depuis la mise en place de l'État providence jusqu'aux bouleversements actuels associés au phénomène de la mondialisation.

Ce travail a nécessité le développement de méthodologies d'analyse du discours assistée par ordinateur faisant des chercheurs associés à la Chaire MCD et au Centre ATO de l'UQAM, des chefs de fil reconnus sur le plan international dans le domaine de l'analyse du discours. Les différentes recherches ont permis d'affiner et de perfectionner un système original de logiciels et de progiciels d'analyse de texte par ordinateur, ayant pour noyau le système SATO. Elles ont également permis d'enrichir et de consolider un ensemble d'outils d'analyse socio-sémantique applicables au domaine de l'analyse du discours politique.




Chaire MCD Chaire de recherche du Canada en Mondialisation, Citoyenneté et Démocratie
Centre d'ATO - ATONET
Creative Commons License Cette création est mise à disposition sous un contrat Creative Commons.