SATO 4.4 Manuel - Analyse de la participation

Table des matières \| Définitions	SATO 4.4, Manuel de référence (février 2010)
Analyseur Participation (pas-à-pas)
L'analyseur participation permet de mesurer l'utilisation relative d'un ensemble de mots dans le corpus entier ou des parties du corpus (sous-textes). L'analyseur produit divers indices numériques pour évaluer la participation de ces mots à l'ensemble du corpus ou à des sous-textes déjà constitués. Comme c'est la règle en SATO, les mots dont on voudra mesurer la participation, sont définis par un filtre de sélection. Si ce filtre ne contient que des contraintes lexicales, par exemple sur les caractères composant les mots ou sur des valeurs de propriétés lexicales, l'analyseur n'aura pas besoin de parcourir l'ensemble du texte. Il lui suffira de consulter les fréquences lexicales comptabilisées dans des propriétés entières. Pour le corpus entier, on dispose déjà de la propriété Fréqtot. Pour les sous-textes existants, on aura les propriétés lexicales définies par l'utilisateur et qui auront été utilisées pour compter les mots lors de la création des sous-textes (commande Texte caractériser sous-texte). Si le filtre fait référence à une propriété textuelle, donc une propriété qui affecte chacune des occurrences en contexte, l'analyseur devra parcourir l'ensemble du corpus ou du sous-texte courant. L'analyseur participation est un analyseur complémentaire à l'analyseur distance. Tout comme l'analyseur distance, il permet une analyse contrastive. Cependant, alors que Distance ramène plusieurs mots ou catégories de mots qui distinguent deux sous-textes, Participation compare plusieurs sous-textes pour un ensemble donné de mots. Distance ne fait pas de tests d'hypothèses statistiques et s'utilise généralement en phase exploratoire. Participation effectue un test de fréquence permettant d'évaluer si la fréquence d'utilisation d'un ensemble de mots dans une partie du corpus s'écarte significativement de sa fréquence dans l'ensemble du corpus. L'analyseur Participation est donc de nature plus quantitative en mettant l'emphase sur les comparaisons de nombres de formes, nombres de mots et leurs proportions dans des parties du corpus. Ce guide propose une description, illustrée pas-à-pas, des opérations techniques à effectuer pour procéder à l'analyse de la participation. Dans ce tutoriel, nous assumons que plusieurs sous-textes ont déjà été créés. Les étapes de création de sous-textes sont illustrées notamment dans le tutoriel Sous-texte avec un filtre (pas-à-pas). Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence.
Choix du formulaire Choix du filtre Choix des propriétés lexicales entières Lecture et interprétation des résultats

SATO 4.4, Manuel de référence (février 2010)

Analyseur Participation (pas-à-pas)

L'analyseur participation permet de mesurer l'utilisation relative d'un ensemble de mots dans le corpus entier ou des parties du corpus (sous-textes). L'analyseur produit divers indices numériques pour évaluer la participation de ces mots à l'ensemble du corpus ou à des sous-textes déjà constitués.

Comme c'est la règle en SATO, les mots dont on voudra mesurer la participation, sont définis par un filtre de sélection. Si ce filtre ne contient que des contraintes lexicales, par exemple sur les caractères composant les mots ou sur des valeurs de propriétés lexicales, l'analyseur n'aura pas besoin de parcourir l'ensemble du texte. Il lui suffira de consulter les fréquences lexicales comptabilisées dans des propriétés entières. Pour le corpus entier, on dispose déjà de la propriété Fréqtot. Pour les sous-textes existants, on aura les propriétés lexicales définies par l'utilisateur et qui auront été utilisées pour compter les mots lors de la création des sous-textes (commande Texte caractériser sous-texte). Si le filtre fait référence à une propriété textuelle, donc une propriété qui affecte chacune des occurrences en contexte, l'analyseur devra parcourir l'ensemble du corpus ou du sous-texte courant.

L'analyseur participation est un analyseur complémentaire à l'analyseur distance. Tout comme l'analyseur distance, il permet une analyse contrastive. Cependant, alors que Distance ramène plusieurs mots ou catégories de mots qui distinguent deux sous-textes, Participation compare plusieurs sous-textes pour un ensemble donné de mots. Distance ne fait pas de tests d'hypothèses statistiques et s'utilise généralement en phase exploratoire. Participation effectue un test de fréquence permettant d'évaluer si la fréquence d'utilisation d'un ensemble de mots dans une partie du corpus s'écarte significativement de sa fréquence dans l'ensemble du corpus. L'analyseur Participation est donc de nature plus quantitative en mettant l'emphase sur les comparaisons de nombres de formes, nombres de mots et leurs proportions dans des parties du corpus.

Ce guide propose une description, illustrée pas-à-pas, des opérations techniques à effectuer pour procéder à l'analyse de la participation. Dans ce tutoriel, nous assumons que plusieurs sous-textes ont déjà été créés. Les étapes de création de sous-textes sont illustrées notamment dans le tutoriel Sous-texte avec un filtre (pas-à-pas). Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence.

Choix du formulaire

Choix du filtre

Choix des propriétés lexicales entières

Lecture et interprétation des résultats

1. Choix du formulaire

Dans cet exemple, nous allons appliquer l'analyseur participation pour mesurer la proportion occupée par un mot ou une catégorie dans plusieurs ensembles textuels. Cette illustration présume que nous avons déjà créé au moins deux sous-textes dans notre corpus et que nous avons conservé dans des propriétés lexicales entières le nombre d'occurrences des mots présents dans ces sous-textes. Pour plus d'information sur cette opération, on pourra consulter le tutoriel Sous-texte avec un filtre (pas-à-pas).

Pour illustrer le fonctionnement de l'analyseur participation, nous ferons appel au corpus public dit du Discours constitutionnel canadien (DCC), qui contient les transcriptions de rondes de discussion tenues entre 1941 et 1987 portant sur la constitution canadienne. Dans ce corpus, nous avons déjà créé plusieurs sous-textes correspondant, respectivement, aux allocutions des représentants du gouvernement fédéral, des gouvernements des provinces des Maritimes, ainsi que des représentants des Autochtones et des Inuits. Pour chacun de ces sous-textes, nous avons défini une propriété lexicale entière qui contient la fréquence des mots utilisés dans le sous-texte.

Nous allons mesurer l'utilisation du terme peuple par ces différents représentants. En effet, suite à l'application de l'analyseur distance, nous avions constaté que le terme peuple était particulièrement saillant dans les allocutions des représentants autochtones et inuits. L'application de l'analyseur participation nous permettra de mieux saisir comment se répartit l'utilisation de ce mot entre les allocutions des diverese catégories des diverese catégories de représentants. Nous savons déjà que ce mot est caractéristique des représentants autochtones et inuits, mais nous n'avons pas d'idée plus précise de sa participation aux déclarations des autres catégories d'intervenants.

En présumant que les sous-textes ont été créés, passons directement à l'analyse de la participation. Pour analyser la participation, dans le menu de SATO à gauche, nous choisissons Analyseur, ensuite, Participation et Appliquer tel que présenté dans l'illustration 1 ci-dessous.

Illustration 1. Choix du formulaire

2. Choix du filtre

Comme nous cherchons à déterminer la participation du terme peuple, nous entrons ce terme dans l'espace réservé au filtre, comme indiqué dans l'illustration 2 ci-dessous. Ensuite, nous cliquons sur le bouton Soumettre.

Illustration 2. Entrée du filtre

NOTE: Nous aurions également pu demander à SATO de tester la participation de peuple et peuples, auquel cas, on aurait choisi le filtre suivant: peupl(e,es). Cette possibilité de considérer un ensemble de mots, en utilisant la syntaxe du filtre, est en fait une décision d'analyse qui vise à valider l'hypothèse sur laquelle repose ce regroupement de termes. Dans notre exemple, une analyse préalable par l'analyseur distance avait montré que ces deux termes ont des saillances ou des répartitions différentes. On cherchera ici à mesurer spécifiquement la participation de peuple plutôt que celle des deux termes considérés comme une seule entité.

3. Choix des propriétés lexicales entières

Comme le filtre indiqué à l'étape précédente ne comporte aucune contraine sur les mots en contexte, l'analyseur pourra effectuer ses calculs directement sur les fréquences lexicales. SATO nous demande donc de choisir une ou plusieurs propriétés lexicales entières. En fait, SATO affiche les propriétés qui contiennent, présume-t-on, un décompte des mots présents dans le corpus entier et dans les sous-textes. Pour rappel, lorsque nous avions créé les sous-textes, nous avions demandé à SATO d'effectuer le décompte des occurrences dans une propriété lexicale. Ainsi, les propriétés ReprésAutoc, ReprésFédé, ReprésMarit et ReprésQuéb contiennent, respectivement, le décompte des occurences des allocutions des représentants autochtones et inuits, du gouvernement fédéral, des provinces maritimes et du Québec. Dans la liste proposée par SATO, nous choisirons ces quatre propriétés comme présenté dans l'illustration 3 ci-dessous. Ensuite, nous cliquons sur le bouton Accepter.

Illustration 3. Choix des propriétés lexicales entières

4. Lecture et interprétation des résultats

Une fois l'analyseur participation appliqué, nous obtenons une page de résultats (cf. illustration 4). Dans l'illustration, nous avons identifié chaque colonne par un numéro afin d'en préciser la signification.

Point 1 de l'illustration 4. Tel qu'en témoigne son intitulé Propriété, la première colonne présentée dans l'illustration reprend les noms des propriétés lexicales qui contiennent les décomptes. Il s'agit de ReprésQc, ReprésFd, ReprésMa et ReprésAu pour, respectivement, le décompte des occurrences des allocutions des représentants du Québec, du gouvernement fédéral, des provinces maritimes et des représentants autochtones et inuits.

Point 2 de l'illustration 4. La deuxième colonne intitulée Couverture indique la taille relative du sous-texte par rapport à l'ensemble du corpus. La couverture est calculée en divisant la somme des occurrences dans le sous-texte par le nombre d'occurrences dans l'ensemble du corpus. Dans ce cas ci, on voit que le sous-texte des déclarations des représentants autochtones et inuits (ReprésAu) contient 15459 des 368707 mots du corpus. Cette proportion est égale à 4.19% de l'ensemble des mots du corpus. Comme nous n'avons pas inclus les déclarations des provinces de l'Ouest canadien ni de l'Ontario, le total de la colonne couverture (10.45% + 16.47% + 18.31% + 4.19% = 49.42%) est inférieur à 100%.

Illustration 4. Lecture et interprétation des résultats

Point 3 de l'illustration 4. La troisième colonne intitulée Lexèmes permet de saisir rapidement la relation entre le mot peuple et l'ensemble des formes de mots présentes dans les sous-textes. Ici, il n'est pas question de mesurer le nombre de mots présents dans le sous-texte, mais plutôt le nombre de formes distinctes, ou si l'on veut, d'entrées dans le lexique du corpus. Le lexique, rappelons-le, est la liste des mots du corpus, qu'ils aient été utilisés une seule ou cent fois. Dans ce cas ci, on voit que peuple compte pour 0.07% de l'ensemble des entrées de dictionnaire dans le sous-texte des représentants autochtones et inuits. On remarque par ailleurs que peuple est comptabilisé par SATO comme deux lexèmes différents. En fait, puisque le corpus a été catégorisé d'un point de vue socio-sémantique, SATO compte deux formes pour peuple. Ainsi, peuple a reçu la catégorie US2A1 lorsqu'il fait référence au concept de « peuple comme source de légitimité politique » ou la catégorie US2A2 lorsqu'il fait référence au concept de « peuple comme notion qui renvoie à la communauté ». Le filtre (cf. Choix du filtre) peuple*socio=US2A2 aurait permis de choisir entre les acceptions de peuple. Aussi, on aurait pu mesurer la participation la catégorie socio-sémantique, sans égard aux mots spécifiques qui la portent, par le filtre $*socio=US2A2.
Point 4 de l'illustration 4. La quatrième colonne intitulée Occurrences nous indique combien de fois le mot peuple (peu importe sa catégorie socio-sémantique) a été utilisé dans les sous-textes. Dans le cas du sous-texte des déclarations des représentants autochtones et inuits, SATO nous indique que les réprésentants ont utilisé 31 fois ce mot sur les 15459 mots que contient le sous-corpus. On notera donc ici que SATO compare le nombre de fois que le mot peuple a été utilisé par rapport à l'ensemble des mots du sous-texte (31/15459 dans le cas des représentants autochtones et inuits), soit 0.20%. Donc, non seulement, les réprésentants autochtones et inuits ont utilisé le plus souvent le terme peuple, mais également, des quatre groupes de représentants, ils sont ceux qui se sont exprimés le moins (à peine plus de 4% du corpus comme on l'avait vu dans la colonne Couverture). Il n'est donc pas étonnant que SATO nous ait signalé, par l'application préalable de l'analyse distance, l'importante saillance du terme peuple dans les déclarations des Autochtones et Inuits.
Point 5 de l'illustration 4. La cinquième et dernière colonne intitulée Cote Z donne le résultat de l'évaluation de l'écart entre la fréquence relative de peuple dans le sous-texte et la fréquence relative calculée sur l'ensemble du corpus. On considère ici que la mesure de la fréquence d'un ensemble donné de mots devrait suivre une loi normale, sous l'hypothèse d'une distribution uniforme de ces mots sur l'ensemble du corpus. La Cote Z ramène cette distribution à une normale de moyenne 0 et d'écart-type 1. On considère généralement qu'un écart qui dépasse deux écarts-types (1.96) a moins de 5% de chance d'être dû au hasard, ce qui nous amène à penser qu'un tel écart est significatif du point de vue statistique.

Dans l'exemple ici, on voit que la Cote Z de l'utilisation de peuple dans le sous-texte des représentants autochtones et inuits s'écarte grandement (8.62) de la moyenne attendue. On remarque également que le gouvernement du Québec utilise légèrement plus (1.02) le terme peuple que la moyenne, le gouvernement fédéral s'écartement lui aussi légèrement de la moyenne par son sous-usage du terme (-0.80). La Cote Z permet donc, non seulement de mesurer l'écart positif de l'utilisation (au dessus de la moyenne), mais également l'écart négatif (au dessous de la moyenne). Cet indice est important car il permet également de qualifier un sous-texte par l'absence d'utilisation d'un mot ou d'une catégorie.