SATO 4.4, Manuel de référence (mars 2007)
Table des matières | Définitions
Analyseur Segmentation
... découpe le texte en segments disjoints. Ces segments sont du même type que ceux produits par la commande CONTEXTE et peuvent être affichés par la commande CONTEXTE AFFICHER et exportés par la commande CONTEXTE EXPORTER.
Exploitation :
APPLIQUER { DÉLIMITEUR, DOCUMENT, NOMBRE et PAGE }
Configuration :
CARACTÉRISER { EXTRACTION | LONGUEUR | SAUT }

Algorithme

Exemples :
Exemple 1, 3 et 3 - Analyseur segmentation appliquer

Algorithme

Un segment est constitué d'une suite d'occurrences identifiée par les numéros des premier et dernier mots de la suite. Les segments ainsi constitués ont la même forme que les contextes et peuvent être affichés ou exportés par la commande CONTEXTE. Le découpage du corpus en segments sert généralement à préparer les unités de contexte qui seront soumis à l'analyseur COMPTAGE.

La segmentation du corpus a pour effet de découper l'ensemble du corpus en segments disjoints. Ces segments peuvent correspondre aux frontières naturelles de pagination, soit la page ou le document. Dans le cas d'une segmentation par délimiteur, l'analyseur utilise les mots désignés par un filtre comme frontières entre les segments. Le délimiteur lui-même fait partie du segment courant au début ou à la fin dépendant de l'option choisie : INITIAL ou TERMINAL.

Dans le cas d'une segmentation numérique, chaque segment doit comporter un nombre fixe d'occurrences. Si le dernier segment du corpus ne compte pas exactement le nombre de mots fixés, il est exclu de la segmentation.

Lors de l'application de l'analyseur, SATO tient compte du sous-texte actif, s'il est défini. Cela signifie que les mots, pages ou documents qui ne font pas partie du sous-texte ne seront pas pris en compte lors de la détermination des frontières de chaque segment.

Sauf pour les segments numériques, qui doivent obligatoirement comporter un nombre fixe d'occurrences, il est possible, par l'option LONGUEUR, de ne conserver que les segments dont le nombre d'occurences est compris à l'intérieur d'un certain intervalle. Il est aussi possible, par l'option SAUT, de ne conserver qu'une fraction des segments générés.


Appliquer

APPLIQUER lance l'exécution de l'analyseur.

Quatre options s'appliquent à l'application : DÉLIMITEUR, DOCUMENT, NOMBRE et PAGE.


Appliquer Délimiteur
Syntaxe :
ANALYSEUR SEGMENTATION APPLIQUER DÉLIMITEUR filtre {INITIAL|TERMINAL}

La segmentation par délimiteur permet de définir des segments délimités par un filtre.

Cette commande définit des segments de texte bornés par le délimiteur décrit par le patron de fouille filtre. La valeur implicite du filtre désigne les ponctuations fortes, c'est-à-dire (.,?,!,:,;,...).

Les délimiteurs désignés par le filtre amorcent le segment ou le terminent selon que l'on indique INITIAL ou TERMINAL.

Voir : Exemple 3 - Analyseur segmentation appliquer.


Appliquer Document
Syntaxe :
ANALYSEUR SEGMENTATION APPLIQUER DOCUMENT

La segmentation par document découpe le texte en autant de segments qu'il y a de documents.


Appliquer Nombre
Syntaxe :
ANALYSEUR SEGMENTATION APPLIQUER NOMBRE VALEUR

La segmentation par nombre sert à diviser le texte en segments de taille fixe constitués d'un nombre déterminé de mots.

Cette commande définit des segments de texte constitués d'un nombre fixe de mots. Le paramètre VALEUR est un entier positif qui permet précisément de fixer ce nombre de mots.

Voir : Exemples 1 et 2 - Analyseur segmentation appliquer.


Appliquer Page
Syntaxe :
ANALYSEUR SEGMENTATION APPLIQUER PAGE

Finalement, la segmentation par page découpe le texte en autant de segments qu'il y a de pages dans le corpus.


Caractériser

Caractériser permet de modifier certains traits de fonctionnement de l'analyseur. Les traits modifiables sont: EXTRACTION, LONGUEUR et SAUT.


Caractériser Extraction
Syntaxe :
ANALYSEUR SEGMENTATION CARACTÉRISER EXTRACTION {?|?? variable|= OUI|= NON}

Le trait EXTRACTION permet de préciser si OUI ou NON on veut inscrire dans le fichier d'extraction les références de pagination de chaque contexte produit. Si le trait a la valeur OUI, l'analyseur créera l'entrée Page dans le fichier d'extraction. L'entrée contiendra autant d'éléments qu'il y aura de segments produits. La précision de la référence dépend de la modalité de segmentation. Une segmentation par DOCUMENT produit des références s'arrêtant au document. Pour une segmentation par PAGE, SATO rajoute la référence à la page. Pour une segmentation par DÉLIMITEUR ou par NOMBRE, SATO ajoute le numéro de ligne et le numéro du premier mot de chaque segment.

L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.


Caractériser Longueur
Syntaxe :
ANALYSEUR SEGMENTATION CARACTÉRISER LONGUEUR {?|?? variable|= entier}

Le trait LONGUEUR permet de définir l'intervalle de longueur des segments à conserver. Le paramètre LONGUEUR est un filtre numérique qui définit le nombre minimum et/ou maximum de mots que doit contenir un segment. Cette option ne s'applique pas à une segmentation de type NOMBRE puisque la longueur des segments y est déjà définie.

L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.


Caractériser Saut
Syntaxe :
ANALYSEUR SEGMENTATION CARACTÉRISER SAUT {?|?? variable|= valeur}

Quel que soit le type de segmentation choisi, il est possible de conserver un échantillon des segments repérés. Pour ce faire, nous utilisons une méthode d'échantillonnage systématique : pour chaque segment conservé, nous en sautons 1, 2, 3, etc. Nous obtenons ainsi un échantillonnage de 1 sur 2 (50%), 1 sur 3 (33%), 1 sur 4 (25%), etc.

L'option SAUT indique le nombre de segments à sauter dans l'échantillonnage systématique. La valeur implicite du paramètre SAUT est 0.

L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.


Exemples

Exemple 1. Dans l'exemple qui suit nous découpons le corpus en segments de dix mots. Dans un premier temps, tous les segments sont conservés.

* ANALYSEUR SEGMENTATION APPLIQUER NOMBRE 10

Nombre de segments repérés: 31

Exemple 2. Dans l'exemple suivant, on produit aussi une segmentation du corpus en une suite de segments de 10 mots. Cependant, seulement 10% des segments seront conservés. Pour ce faire, nous sautons neuf segments pour chaque segment conservé.

* ANALYSEUR SEGMENTATION CARACTÉRISER SAUT = 9

9

* ANALYSEUR SEGMENTATION APPLIQUER NOMBRE 10

Nombre de segments repérés: 3

Exemple 2. L'exemple suivant illustre un cas de découpage du texte par phrases délimitées par un point, les deux-points, un point-virgule, un point d'exclamation, d'interrogation ou des points de suspension. Dans cet exemple, on conserve toutes les phrases, quelle que soit leur longueur.

* ANALYSEUR SEGMENTATION APPLIQUER DÉLIMITEUR (.,:,;,!,?,...) TERMINAL

Nombre de segments repérés: 27