SATO 4.4, Manuel de référence (mars 2007; dernière modification en jullet 2016)
Système d'analyse de texte par ordinateur
Table des matières
  1. Modifications récentes au logiciel
  2. Introduction
  3. Présentation du logiciel SATO
  4. Bureau
  5. Préparation d'un corpus pour soumission à SATO
  6. Commandes (présentation)

  7. Plan lexique / occurrences : Catégorisation : Analyse : Interface :
  8. Outils
  9. Définitions
  10. Liste des erreurs
  11. Tutoriels :
  12. Exercices pour l'apprentissage de SATO
  13. Soumission d'un corpus - Foire aux questions
  14. Guide de programmation des interfaces HTML

Modifications récentes au logiciel

Cette section indique les modifications récentes apportées à SATO et à son interface. Les modifications sont présentées des plus récentes aux plus anciennes avec leur date d'implantation.

  1. Dans les commandes TEXTE CARACTÉRISER SOUS-TEXTE {CONTEXTE|DOCUMENT|FILTRE|PARAGRAPHE|PHRASE}, le nom de la propriété lexicale servant à conserver les fréquences du lexique du sous-texte doit être précédée de LEXIQUE ou de NOUVEAU-LEXIQUE pour introduire une propriété existante ou une nouvelle propriété à créer. La même modification s'applique à l'ANALYSEUR TAMISAGE. (introduit au manuel en mai 2018)

  2. Le fonctionnement du format HTML de mise en forme des valeurs d'une propriété a été modifié et généralisé. Il fait maintenant appel à un gabarit défini dans le trait HTML. Ce gabarit peut contenir du balisage HTML aussi complexe que nécessaire dans lequel l'entité &s;sato.vpro; sera remplacée, lors du formatage, par la valeur de la propriété. Le gabarit peut être défini pour afficher une image, insérer un hyperlien, une notice, une vidéo, etc. La valeur de la propriété peut donc se limiter à la partie variable du code HTML. Mais, il est aussi possible de mettre l'ensemble du code HTML dans la valeur de la propriété si le gabarit se limite à l'appel de l'entité &sato.vpro;, ce qui constitue d'ailleurs la définition implicite du trait HTML. Avec cette généralisation du format HTML, l'ancien format HREF a été supprimé.
    (novembre 2015)

  3. Un lien Mes documents a été ajouté au menu des outils. Le lien active la commande Texte décrire pour afficher la liste des documents du corpus dans la fenêtre inférieure déjà utilisée pour le journal et la catégorisation. En cliquant sur le nom d'un document, il s'affiche dans la fenêtre principale. Aussi, l'affichage du texte est maintenant par défaut en mode page à page plutôt qu'en nombre fixe de lignes. On peut revenir au mode d'affichage en nombre de lignes par la commande TEXTE CARACTÉRISER PAGE_À_PAGE = NON.
    (janvier 2015)

  4. La version 4.4 de SATO est installée sur un nouveau serveur tournant sous Linux. La version 4.4 de SATO est une évolution du code source qui le rend admissible au compilateur Free Pascal. Ce compilateur permet de produire des versions de SATO pour diverses plateformes. C'est ainsi que la version 4.4 de SATO a pu être implantée sur un serveur Linux 64 bits à processeurs multiples possédant chacun plusieurs coeurs.

    Outre une puissance de calcul nettement améliorée, cette version de SATO offre à l'usager une navigation permettant de parcourir le texte, le lexique et les contextes tant vers l'avant que vers l'arrière. Comme ces affichages sont générées dynamiquement, le bouton permettant de rafraîchir la page pourra tenir compte des changements de catégorisation appliqués en séance sur la page courante. Dans la commande Texte décrire, les documents listés sont maintenant cliquables permettant d'afficher le document sur lequel on a cliqué. Aussi, dans l'affichage des contextes courts (kwic), un lien identifié par le bouton + provoque l'affichage d'un contexte élargi dans une nouvelle page. La commande Contexte caractériser kwic a été augmentée pour permettre d'indiquer le nombre de mots autour du pôle définissant l'étendue du contexte élargi.
    (octobre 2013)

    Même si elle a été soumise à divers tests, cette version est susceptible de manifester des anomalies de fonctionnement dans des conditions particulières. On invite donc les utilisateurs à nous transmettre toute information permettant de documenter ces anomalies pour nous permettre de les corriger le plus rapidement possible.

  5. La version 4.33 de SATO est maintenant en production. Cette version corrige plusieurs problèmes de plantage qui sont apparus dans la version 4.32. Cette mise à jour se caractérise surtout par des changements internes à SATO et par une consolidation du mode d'exportation selon le protocole TEI. Ainsi, l'exportation du texte fait maintenant appel à une la balise supérieure teiCorpus englobant des balises TEI pour chacun des documents du corpus. Voir POSTE PROTOCOLE CARACTÉRISER GÉNÉRAL et PROPRIÉTÉ CARACTÉRISER TEI. Aussi, la section Outils / Tâches de l'interface SATO contient de nouveaux dispositifs. Le filtrage dans la gestion des fichiers permet l'application de feuilles de transformation XSLT sur les sorties XML de SATO. Un onglet Normalisation des apostrophes et des caractères insécables a été ajouté. Le service Web de cooccurrence dans la section Outils / Cooccurrences a été augmenté pour offrir plusieurs modèles et tests statistiques.
    (octobre 2012)

  6. Un chapitre intitulé Exercices pour l'apprentissage de SATO été ajouté à la fin du Manuel. Ces exercices sont inspirés de la démonstration sur les fables de La Fontaine.
    (aout 2012)

  7. SCÉNARIO SUPPRIMER. L'ajout de cette modalité de gestion permet de supprimer des fichiers scénarios sans passer par l'outil général de gestion des fichiers.
    (avril 2012)

  8. PROPRIÉTÉ CARACTÉRISER propriété TEI. Ce nouveau paramètre de configuration des propriétés a été ajouté pour indiquer le mode de balisage qui sera utilisé pour l'exportation du texte en format TEI (cf. POSTE PROTOCOLE CARACTÉRISER GÉNÉRAL). Deux modes sont supportés : débarqué et embarqué.

    Le mode embarqué est le mode par défaut pour coder les propriétés lors de l'exportation du texte selon le protocole TEI. Dans ce mode, les propriétés SATO seront traduites en balises TEI milestone accompagnant, dans un même fichier, le texte exporté. À l'opposé, dans le mode débarqué, l'exportation du texte selon le protocole TEI sera complétée par la production d'un fichier d'annotation séparé contenant toutes les propriétés en mode débarqué. Le nom du fichier reprendra le nom du fichier d'exportation du texte augmenté du suffixe « _pro ». Les balises TEI utilisées, comme span et link font appel à un mécanisme de pointage référant aux attributs xml-id utilisés dans le fichier d'exportation du texte.

    Un autre paramètre a été ajouté à la configuration des propriétés. Le paramètre HREF permet de spécifier la façon d'interpréter une valeur de propriété pour générer un hyperlien HTML. Le paramètre FORMAT permettait déjà de commander à SATO de transformer une valeur de propriété en hyperlien. Cependant, auparavant, il fallait que cette valeur contienne l'adresse URI complète de l'hyperlien. Le paramètre de configuration HREF permet maintenant de préciser les parties fixes et variables de l'adresse afin d'insérer dynamiquement la valeur de la propriété dans la partie variable.
    (juin 2011, corrigé en septembre 2012)

  9. L'exportation avec les protocoles SATO, SATO_PARTIEL et TEI utilise maintenant un système de versions pour les noms de fichier. Ainsi, si le fichier d'exportation existe déjà, on modifiera son nom en lui ajoutant un identificateur de version sous la forme _1, _2, etc. jusqu'à obtenir un nom de fichier original. Une extension sera ajoutée au nom de fichier pour indiquer s'il s'agit d'un fichier corpus (.sat), d'un document (.txt) ou d'un fichier XML-TEI (.xml). Comme l'exportation selon le protocole TEI est susceptible de produire plusieurs fichiers, le numéro de version pourra être suivi d'une particule indiquant la nature des fichiers supplémentaires, en particulier _pro pour un fichier d'annotation de propriété en mode débarqué.
    (juin 2011, modifié en octobre 2012)

  10. SCÉNARIO CARACTÉRISER. Le paramètre CARACTÈRES a été supprimé. Ce paramètre permettait de manipuler des scénarios utilisant un encodage des caractères différent de l'UTF8. Comme l'interface de gestion des fichiers (bureau SATO) permet de convertir le format d'encodage des caractères, cette option était devenue inutile.
    (avril 2011)

  11. Un nouveau guide a été ajouté au chapitre Tutoriels : Analyseur Participation (pas-à-pas). Ce tutoriel a été rédigé par Dimitri Della Faille et François Daoust.
    (juin 2010)

  12. DICTIONNAIRE TABULAIRE. Le traitement des dictionnaires tabulaires par SATO (cf. commande DICTIONNAIRE TABULAIRE) a été vérifié et corrigé. Comme ce type de dictionnaire est généralement issu d'une exportation en format csv à partir d'un logiciel de type tableur, le suffixe .cvs est maintenant assumé par défaut dans SATO. Même si l'acronyme csv (Comma-separated values) suggère une séparation des colonnes par des virgules, on doit plutôt choisir le caractère de tabulation comme séparateur de colonnes et omettre l'encadrement des valeurs par un caractère comme le guillemet. Dans cette exportation, la première colonne correspond à la forme lexicale et les autres colonnes aux valeurs de propriété de la forme. La première ligne du tableau donne le nom des propriétés, sauf pour la première colonne, qui correspond à l'entrée lexicale, dont le nom ne sera pas utilisé.
    (mai 2010)

  13. Quatre nouveaux guides ont été ajoutés au chapitre Tutoriels : Sous-texte avec un filtre (pas-à-pas), Sous-texte à partir de contextes (pas-à-pas), Scénario (pas-à-pas) et Analyse de la distance (pas-à-pas). Ces tutoriels ont été rédigés par Dimitri Della Faille et François Daoust.
    (décembre 2009)

  14. ANALYSEUR DISTANCE. La présentation des résultats de l'analyseur DISTANCE a été légèrement modifiée et affiche maintenant les fréquences relatives avec trois chiffres après le point. L'analyseur de distance prend maintenant en compte le protocole tabulaire (cf. commande POSTE PROTOCOLE) afin de séparer les colonnes par une tabulation. Ce mode facilite l'importation des résultats dans un tableur.
    (décembre 2009)

  15. Ajout d'un format XML pour le fichier d'extraction (cf. commande POSTE EXTRACTION). On peut maintenant définir un fichier d'extraction en utilisant le suffixe xml. Dans ce cas, les comptages (cf. commande ANALYSEUR COMPTAGE) seront inscrits dans le fichier d'exportation en suivant un protocole XLM-TEI. Aussi, pour assurer l'intégrité de ce nouveau format, il n'est plus possible de définir un fichier d'extraction en mode AJOUT.
    (octobre 2009)

  16. Suppression d'options dans la commande POSTE JOURNAL. Il n'est plus possible d'exporter l'ensemble du journal sur le fichier de listage. Également, il n'est plus possible de changer le nom du fichier associé au journal (trait FICHIER).
    (octobre 2009)

  17. Ajout de l'option SUPPRESSION dans la commande TEXTE CARACTÉRISER SOUS-TEXTE. Cette option permet de supprimer un sous-texte et rappeler l'ensemble du corpus.
    (février 2008)

  18. Ajout de Mes propriétés dans la section Outils de l'interface SATO. Il est maintenant possible de faire afficher, dans la zone journal de l'interface SATO, la définition des diverses propriétés du corpus. Les informations affichées sont identiques à celles qu'on obtient par la commande PROPRIÉTÉ AFFICHER. Cependant, comme les informations apparaissent dans la fenêtre normalement réservée au journal, on peut les consulter à chaque fois qu'il est requis, dans la fenêtre principale, de définir un filtre dans les diverses commandes de SATO.
    (février 2008)

  19. Ajout de la valeur com à la propriété prédéfinie Édition. Cette valeur com (commenter) sert à marquer des occurrences de telle sorte qu'elles apparaissent comme des commentaires lors d'une exportation du corpus en format SATO. Cela permet de garder une trace explicite des mots qu'on veut soustraire de l'analyse dans le corpus exporté.
    (décembre 2008)

  20. Filtrage par expression rationnelle (regular expression en anglais). En plus de la syntaxe SATO de filtrage de chaine de caractères, on a maintenant la possibilité d'utiliser la syntaxe des expressions rationnelles telle qu'on la retrouve dans le langage Perl. Cette syntaxe est beaucoup plus complexe que la syntaxe SATO standard. Mais, elle est aussi plus beaucoup plus puissante. Elle fournit notamment des opérateurs de classes de caractères. On trouvera la documentation en anglais sur la libraire PCRE (Perl-compatible Regular Expressions) dans le document suivant : pcrespec.html.

    Le filtrage PCRE peut être utilisé partout où il possible d'appliquer un filtre de caractères SATO. Un filtre de caractères qui commence par une virgule indique que le patron qui suit est de type Perl. Le patron lui-même est encadré par un caractère délimiteur qui ne doit pas être utilisé dans l'expression régulière. Par exemple, ,/[^aou]/*Fréqtot>1 est un filtre qui comprend une expression rationnelle encadrée par le caractère /. Dans l'exemple, l'expression rationnelle [^aou] aurait pour effet de repérer tous les mots qui ne possèdent aucune des trois voyelles a o u. L'expression rationnelle est complétée par un filtre SATO sur la valeur de la propriété Fréqtot et qui indique que la fréquence dans le corpus des mots sélectionnés doit être supérieure à 1.
    (décembre 2008)

  21. Le Manuel a été augmenté d'un chapitre Tutoriels dans lequel on retrouve présentement les guides suivants : Catégorisation lexicale (pas-à-pas), Catégorisation en contexte (pas-à-pas), Touches de catégorisation (pas-à-pas) et Guide de préparation de corpus pour soumission à SATO en format pdf. Ces tutoriels ont été rédigés par Dimitri Della Faille et François Daoust.
    (aout 2008)

  22. Nouvelle stratégie de marquage des locutions et graphies non standards. Lorsqu'on soumet un texte à SATO, les formes lexicales sont constituées en appliquant les règles de l'alphabet de la langue courante du texte. Il arrive cependant que des chaines de caractères doivent être considérées comme des mots, même si elles ne respectent pas les règles de l'alphabet. Auparavant, on utilisait le trait de soulignement _ pour relier des chaines normalement séparées par l'application des règles de l'alphabet. Maintenant, on suggère plutôt d'utiliser les balises *( et *) pour encadrer de telles chaines comme, par exemple dans « *(assemblée nationale*) » ou « *(http://www.ling.uqam.ca*) ». Avec cette nouvelle stratégie de balisage, on déconseille l'utilisation des espaces insécables pour lier des mots simples dans une locution, d'autant que les traitements de texte utilisent le blanc insécable entre le mot et certaines ponctuations. Aussi, l'ancien caractère de liaison SATO n'est plus supporté. Voir le chapitre Préparation d'un corpus pour soumission à SATO pour plus d'information.

    On a également ajouté la valeur sic à la propriété prédéfinie Édition pour marquer la nature non standard d'une forme lexicale afin de restaurer les balises lors de l'exportation en format SATO. Aussi, la valeur lié de la propriété Édition provoquera l'ajout des balises *( et *) pour encadrer une séquence de formes lexicales distinctes que l'on voudrait voir réunies lors d'une nouvelle soumission du corpus à SATO. Voir Propriétés prédéfinies.

    Enfin, comme l'espace est considéré comme un séparateur dans un filtre SATO, l'opérateur ^ a été ajouté à la syntaxe du filtre pour représenter l'espace. Signalons aussi qu'on peut, dans un filtre, désigner un caractère Unicode par une entité numérique décimale. Voici quelques exemples.


    (mai 2008)

  23. ANALYSEUR DISTANCE CARACTÉRISER PRÉSENTATION. L'option PRÉSENTATION a été ajoutée à la liste caractéristiques de l'analyseur DISTANCE. Ce trait permet de sélectionner les propriétés qui seront présentées dans le tableau de distance en supplément des colonnes standards.
    (octobre 2007)

  24. POSTE PROTOCOLE TEI. L'option TEI a été ajoutée à la liste des protocoles. Ce protocole permet de préciser les balises utilisées pour la présentation des résultats dans le cas où le protocole général est TEI. Plus précisément, le protocole concerne le balisage des mots dans la ligne.
    (octobre 2007)

  25. DICTIONNAIRE TABULAIRE. Les mots inscrits en entrée du dictionnaire dans la première colonne ne doivent pas être entre guillemets contrairement à ce qui était indiqué auparavant.
    (octobre 2007)

  26. Préparation d'un corpus pour soumission à SATO. Pour l'affectation d'une valeur à la propriété PAGE dans la codification d'un texte, il est maintenant possible d'avoir un nom de document en plus d'une indirection vers un nom de fichier introduit par le caractère @. Il est à noter que, si le suffixe du fichier était absent, les anciennes versions de SATO tentaient de le deviner. Ce n'est plus le cas. Le suffixe du fichier (généralement .txt) doit être spécifié.
    (juillet 2007)

  27. SCÉNARIO CARACTÉRISER DÉFILEMENT. La valeur implicite du trait a été modifiée passant du mode EXPERT au mode PARTIEL. Ainsi, à moins de modifier explicitement le mode de défilement, les résultats des commandes du scénario, dont l'affichage est l'aspect principal, seront cumulés et affichés à l'écran.
    (juin 2007).

  28. TEXTE CARACTÉRISER SOUS-TEXTE. Ajout de l'option NOUVEAU-LEXIQUE permettant de sauvegarder le lexique d'un sous-texte dans une nouvelle propriété.
    (avril 2007)

  29. Préparation d'un corpus pour soumission à SATO. Dans la déclaration PROPRIÉTÉ appliquée à une propriété symbolique, il est maintenant possible d'omettre la liste des symboles de la propriété. Dans ce cas, la liste des valeurs de la propriété sera constituée de tous les symboles utilisés dans le corpus comme valeur de la propriété. Il sera alors nécessaire de vérifier par la commande PROPRIÉTÉ AFFICHER si les valeurs de propriétés utilisées sont celles attendues.
    (avril 2007)