Service d'analyse des cooccurrences (cooc)

Présentation

Cooc est un service Web qui repère les cooccurrents significatifs autour d'un objet-pôle dans un ensemble de contextes ou occurrent des objets. En analyse de texte, ces objets peuvent correspondre à la forme graphique des mots, à une propriété du mot ou à à tout phénomène dépisté en contexte. Les contextes sont des empans de texte. Pour la cooccurrence, il s'agit généralement de contextes courts, par exemple des phrases. Le fichier qui contient la description des objets et des contextes aura été préalablement construit par un programme selon un format XML-TEI. Cliquer sur le lien suivant pour voir un exemple commenté de ce format : exemple-dcc_phrase_41-50.xml

Deux modèles probalistes sont proposés selon l'objet statistique considéré.

Dans le modèle contexte, on évaluera si le nombre de contextes ou cooccurrent un objet avec l'objet-pôle est significativement supérieur ou inférieur à une probabilité théorique selon une distribution statistique donnée.
Dans le modèle objet on évaluera si la fréquence d'un objet dans l'ensemble des contextes où il cooccurre avec l'objet-pôle est significativement supérieure ou inférieure à la probabilité théorique qu'il apparaisse dans l'ensemble des contextes, selon une distribution statistique donnée.

Deux lois statistiques peuvent être invoquées comme distribution théorique : la loi binomiale (pige avec remise) et la loi hypergéométrique (pige sans remise). Dans les deux cas, seront considérés comme significatifs les cooccurrences qui dépassent un certain seuil donné en paramètre. Le seuil de signification est la probabilité de se tromper si on affirme qu'un item cooccurre de façon significative avec l'item pôle.

Formulaire

1a. Envoyer le fichier de données XML-TEI depuis le poste de travail.

- ou -

1b. Donner l'adresse Internet (URL) du fichier de données XML-TEI à soumettre.

( la valeur inscrite est un exemple )

2. Inscrire l'identificateur de l'item pôle de la cooccurrence.

L'item pôle doit être est un des items du fichier de données. L'algorithme identifiera les autres éléments qui cooccurrent de façon significative avec l'item pôle.

( la valeur inscrite est un exemple )

3. Choisir un seuil de signification.

Le seuil de signification est la probabilité de se tromper si on affirme qu'un item cooccurre de façon significative avec l'item pôle. Une valeur de «0.05» est généralement acceptable.

4. Choisir un modèle et une loi de distribution.

Ce paramètre combine le modèle probabiliste (contexte ou objet) et Le seuil de signification est la probabilité de se tromper si on affirme qu'un item cooccurre de façon significative avec l'item pôle. Une valeur de «0.05» est généralement acceptable.

5. Choisir une feuille de style pour la présentation des résultats.

Le résultat est un fichier XML-TEI. On peut le visualiser en HTML en choisissant une feuille de style XSLT