VISIBILITÉ - Glossaire des termes d'ATO

calibrage de texte

Désigne, en ATO, les procédures permettant d'évaluer, à l'aide d'indices numériques, un texte afin de le situer par rapport à un ensemble de textes tenus pour référence ou établis pour des objectifs précis. Ainsi, calibrer un texte dans le milieu scolaire signifie donner un indice à ce texte pour le situer sur une échelle établie de la première année du primaire à la cinquième année du secondaire. Par exemple, pour un texte destiné à un public désigné d'apprenants, les opérations de calibrage portent, entre autres, sur les mots du texte, dit lexique, (par exemple, sur l'identification et la fréquence d'apparition de mots connus ou inconnus dans le texte), sur les phrases (par exemple, sur la longueur des phrases dans le texte) et sur la lisibilité générale du texte.

Voir aussi indice de calibrage

Retour à l'index

catégorisation

Procédure consistant à associer à un mot ou à un groupe de mots, ou encore à tout objet relevant d'un texte (par exemple, signes typographiques, segments de texte, caractères spéciaux), des informations pouvant être de nature diverses (par exemple, des informations d'ordre linguistique et/ou sociologique). Le but étant de catégoriser le mot ou groupe de mots à des fins de traitement, d'analyse, d'interprétation et de gestion, par des règles de généralisation. En d'autres termes, il s'agit d'opérations d'annotation et de classification des objets textuels par l'attribution d'informations relatives aux objectifs ou finalités d'analyse de l'utilisateur. Les objets textuels ainsi caractérisés sont repérés, et au besoin traités, à partir de ces informations. On parle aussi de description.

V. aussi propriété, patron de fouille de propriété.

Linguistique

Procédure d’affectation d’informations relatives aux propriétés linguistiques (morphologie, syntaxe, sémantique, pragmatique) des mots ou groupe de mots, et ce, en contexte ou hors-contexte. Bien que l’éventail de ces propriétés soit vaste, la plupart des applications en ATO utilisent les catégories les plus courantes, à savoir les catégories grammaticales (nom, verbe, adjectif, pronom, etc.), les traits sémantiques (humain, animal, objet, etc.), les traits narratifs (thème ou topique, argument, contre-argument, etc.).

Voir aussi analyseur linguistique, base de données lexicales.

Sc. de l'information

Voir indexation

Sociologie

Procédures visant à attribuer aux mots ayant un sens concret ou abstrait dans le monde réel, ou ayant une signification d’un point de vue sociologique, des étiquettes ou informations relatives soit à leurs domaines d’emploi, soit à la réalité sociale à laquelle ils font référence dans le texte. En d’autres termes, la catégorisation permet de transformer les mots à valeur référentielle (nom et adjectif) en indicateurs socio-sémantiques. On parle aussi de catégorisation socio-sémantique.

Retour à l'index

chaîne de caractères

Désigne toute suite ou séquence de caractères alphanumériques, c'est-à-dire les lettres de l'alphabet, les chiffres et les caractères spéciaux (par exemple, les signes de ponctuation ou les symboles @, /, £, etc.), précédée et suivie d'un espace. Selon les besoins d'analyse de texte, le traitement des chaînes de caractères porte aussi bien sur les caractères minuscles et accentués (on parle d'alphabet riche ou typologie riche) que sur les caractères majuscules (on parle alors d'alphabet pauvre ou de typologie pauvre).

Retour à l'index

chaîne de traitement

Désigne, en ATO, l'ensemble des suites d'opérations, qu'elles soient automatiques (exécutées à l'aide de programmes informatiques et sans intervention humaine), ou manuelles, permettant de traiter du texte à des fins d'analyse du contenu informationnel, d'extraction d'informations ou encore de classement d'informations. À une chaîne de traitement correspond donc un objectif précis; ainsi, par exemple, la chaîne de traitement terminologique correspond aux suites d'opérations allant de l'extraction des mots techniques contenus dans un texte donné à l'établissement des fiches terminologiques de ces mots.

Voir aussi procédurier, scénario.

Retour à l'index

concordance

Statut : terme générique

Désigne un mot (ou une liste de mots) donné (dit mot(s) pôle(s)), présenté avec les extraits ou portions de texte (par exemple les phrases) dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots (par exemple, un groupe de mots ayant une strucure donnée) ou encore les signes (par exemple, des signes typographiques) désignés, l'objectif étant de répondre à des besoins de recherche d’informations (par exemple sur l’environnement lexical ou contextuel) sur le ou les mots pôles. En somme, une concordance est une liste de contextes.

termes spécifiques : concordance libre, concordance stricte.

Voir aussi contexte, mot pôle, patron de concordance.

Retour à l'index

concordance libre

Statut : terme spécifique

Désigne une suite de mots et/ou des signes (par exemple, les signes typographiques) alternatifs donnés, présentés avec les extraits ou portions de texte (dits contextes; par exemple les phrases) dans lesquels ils apparaissent. Autrement dit, une concordance libre est une liste de contextes, où chaque contexte contient au moins un mot des mots déclarés.

Terme générique : concordance.

V. aussi concordance stricte.

Retour à l'index

concordance stricte

Statut : terme spécifique

Désigne une suite de mots et/ou de signes (par exemple, les signes typographiques) donnés, présentés avec les extraits ou portions de texte (dits contextes; par exemple les phrases) dans lesquels ils apparaissent, mais à condition que l'ordre dans lequel ils sont dans les extraits respecte l'ordre dans lequel ils ont été déclarés (on parle aussi de cooccurrence). En d'autres termes, une concordance stricte est une liste de cooccurrents présentés avec leurs contextes.

Terme générique : concordance.

Voir aussi concordance libre.

Retour à l'index

contexte

Désigne, en ATO, l’extrait de texte dans lequel apparaît un ou plusieurs mots désignés (dits mots pôles). Il s'agit en somme, du résultat d’une procédure de fouille à des fins de recherche d’informations (par exemple, sur l’environnement lexical ou contextuel) sur le ou les mots pôles. De fait, la longueur du contexte peut se réveler importante pour les finalités d'une analyse. Ainsi, un contexte peut être une phrase complète ou une portion de texte délimitée par des marques spécifiques (par exemple, des signes de ponctuation), ou encore d’une longueur fixée par l’utilisateur (par exemple, cinq mots avant et après le ou les mot pôles).

V. aussi concordance, mot pôle, patron de fouille.

Retour à l'index

cooccurrence

Voir occurrence.

Retour à l'index

corpus

Désigne un ensemble de textes ou de documents relatifs à un domaine donné et rassemblés à des fins d'analyse particulière (par exemple, pour des analyses documentaires, linguistiques, sociologiques, ou autres).

Retour à l'index

- Commentaires: visib@corpus.ato.uqam.ca -