SATO 4.4, Manuel de référence (mars 2007; dernière modification en octobre 2013) |
Table des matières | Définitions |
Contexte |
---|
Les contextes sont des segments de textes, des extraits, qui peuvent être obtenus directement par repérage d'unités de contenu, ou en partitionnant le texte. Enfin, il existe un cas particulier de contexte, les extraits qui sont définis par manipulation directe sur l'écran. La commande CONTEXTE permet de construire des segments de texte qui contiennent un ou plusieurs mots. |
Exploration :
Exploitation : Configuration : Exemples : |
AFFICHER permet d'afficher à l'écran les contextes préalablement repérés par la dernière commande de repérage de contextes.
Le paramètre entier est un filtre numérique (cf. Filtre de nombres) qui permet de sélectionner les contextes à afficher ou à exporter. Cette sélection consiste à désigner les numéros des contextes à présenter. Le caractère de troncation «$» sélectionne tous les contextes. Il ne doit pas y avoir d'espaces à l'intérieur d'un filtre.
Voici quelques exemples de sélection de contextes ou de segments de texte par leur numéro :
Si le protocole SATO (cf. POSTE PROTOCOLE CARACTÉRISER GÉNÉRAL) a été activé, les informations qui entourent chacun des contextes seront inscrites en commentaire afin de faciliter le soumission des contextes sous la forme d'un corpus SATO.
Normalement, la commande affiche les références et le texte de chacun des contextes sélectionnés. On peut modifier ce comportement en sélectionnant une des options suivantes.
L'option RÉFÉRENCE permet d'afficher ou d'exporter les références de chaque contexte en omettant le texte lui-même. Le format de présentation des références peut être modifié (cf. CARACTÉRISER RÉFÉRENCES).
Voir : Exemple 5 - Contexte références.L'option EXTRAIT indique que les contextes que l'on veut afficher ou exporter sont les extraits définis par manipulation directe (cf. Extrait).
Dans ce cas, si le paramètre entier se résume au caractère de troncation «$», la commande ne présentera que les références de pagination des dix extraits possibles. D'un autre côté, si entier contient un filtre numérique, la commande présentera le texte lui-même des extraits sélectionnés. Initialement, les dix extraits possibles sont définis comme allant du premier au dernier mot du texte.
Voir : Exemple 6 - Contexte extrait.La commande CONTEXTE APPLIQUER permet de repérer tous les segments de texte qui contiennent le ou les mots spécifiés (cf. Contexte : Algorithme). Le patron de concordance est composé d'un ou plusieurs filtres correspondant à des mots distincts dans le contexte repéré.
Dans le cadre d'un patron de concordance, les filtres possèdent une syntaxe élargie permettant de définir des contraintes supplémentaires de positionnement des occurrences cherchées à l'intérieur des contextes. Cette syntaxe élargie permet aussi d'effectuer une catégorisation en contexte (cf. Filtre contextuel).
Chaque filtre du patron de concordance est séparé du suivant par une espace. Le nombre maximum de filtres dans le patron de concordance dépend du type de contexte (cf. CARACTÉRISER BORNES) : cinq (5) pour un contexte délimité et sept (7) pour un contexte numérique ou homogène.
Le paramètre facultatif *+ avant le filtre indique que les contextes repérés seront ajoutés à la liste des contextes courants. En l'absence de l'option, les contextes remplaceront la liste courante des contextes repérés.
On doit comprendre que les filtres contenus dans un patron de concordance sont implicitement reliés par la conjonction «et». Il s'agit donc ici d'une liste de cooccurrences. Ainsi pourrait-on, par exemple, trouver les passages où apparaissent en même temps «sang» ET «coeur». Par ailleurs, si ce que l'on désire plutôt obtenir les extraits où apparaissent «sang» OU «coeur», alors on doit n'avoir qu'un seul filtre constitué d'une alternative : «(sang,coeur)».
Dans un patron de concordance, chacun des filtres désigne un mot (occurrence) satisfaisant aux contraintes exprimées par le filtre. Des opérateurs spéciaux apposés directement (sans espace) à la droite des filtres permettent de définir des contraintes supplémentaires sur le statut et la position des occurrences cherchées dans le contexte. En l'absence d'opérateurs de positionnement, SATO va repérer tous les contextes qui possèdent au moins un mot répondant à chacun des filtres. L'option implicite est donc une recherche booléenne (logique) basée sur la co-présence (conjonction logique) de mots satisfaisant à chacun des filtres.
Les opérateurs de positionnement sont les suivants :
Il est à remarquer que la combinaison *-*+ indique que le mot est à la fois facultatif et répétable.
Dans un patron de concordance, chacun des filtres peut être complété par une attribution de valeur de propriété qui prendra une des formes suivantes :
Le paramètre propriété désigne ici le nom de la propriété à laquelle on veut attribuer une valeur. La propriété peut porter sur le texte ou le lexique. Les opérateurs «:=», «:+» et «:-» signifient respectivement remplacer, ajouter ou retrancher une valeur. Enfin, le paramètre valeur désigne la valeur qui doit être attribuée à la propriété. La syntaxe de cette valeur doit être conforme au type de la propriété. Pour une propriété numérique, l'ajout et le retrait correspondent aux opérations arithmétiques d'addition et de soustraction. Pour une propriété symbolique, l'ajout et le retrait correspondent aux opérations ensemblistes de l'union et de la différence. Pour une propriété en format libre, l'ajout est une opération de concaténation de la nouvelle chaîne à la fin de la chaîne préexistante. La concaténation ne sera réalisée que si la chaîne à concaténer ne constitue pas déjà une sous-chaîne de la chaîne existante. L'opération de retrait correspond à la suppression de la nouvelle valeur si elle existe comme sous-chaîne de la valeur existante.
Voir : Exemple 7 - Contexte catégorisation.Le repérage des contextes commandé par le verbe APPLIQUER utilise diverses stratégies d'optimisation. Voici, brièvement décrit, l'algorithme utilisé. SATO fait d'abord l'analyse de chacun des filtres du patron de concordance. L'analyse des contraintes lexicales permet déjà de prendre certaines décisions.
Ainsi, si le nombre d'occurrences satisfaisant l'un ou l'autre des filtres peut être calculé, SATO choisira comme pôle (mot pivot) de la concordance, le filtre correspondant au plus petit nombre d'occurrences. C'est à partir de ce pôle que sont construits les contextes gauche et droit. Si on ne veut pas laisser à SATO le choix du mot pôle, on peut imposer ce choix par l'opérateur «*&» (cf. Contexte : Opérateurs). Si l'analyse du patron ne permet pas de sélectionner un mot pôle optimal, SATO devra parcourir le texte complet, ce qui est plus long.
SATO gardera, pour chacun des contextes, une trace des occurrences dont la présence a permis de valider le contexte. La présentation des contextes édités (cf. AFFICHER, EXPORTER) utilisera cette information en mettant en gras les occurrences dépistées.
Dans le cas d'un contexte dont les bornes sont des délimiteurs exclus, SATO ne procédera à l'exclusion qu'après avoir validé le patron de concordance. Il est donc possible d'inclure la présence du délimiteur dans le patron de concordance même si le délimiteur est exclu du résultat final. Ainsi pourrait-on repérer le premier mot d'une phrase à partir de la ponctuation de la phrase précédente défini comme délimiteur gauche exclu du contexte.
Lorsque SATO repère des contextes identiques successifs, c'est-à-dire des contextes qui coïncident par leur début et leur fin, seul le premier contexte sera retenu. Par ailleurs les mots repérés dans l'ensemble des contextes identiques seront soulignés dans le contexte conservé. De plus, les opérations de catégorisation seront réalisées même si un seul contexte est conservé.
DÉCRIRE les contextes provoque l'affichage du nombre de contextes générés la dernière commande CONTEXTE APPLIQUER ou ANALYSEUR SEGMENTATION APPLIQUER.
Voir : Exemples 1, 2 et 3 - Contexte décrire.EXPORTER permet d'écrire sur le fichier d'exportation les contextes préalablement repérés par la dernière commande de repérage de contextes.
Voir : AFFICHER pour l'explication des paramètres et du fonctionnement de la commande.CARACTÉRISER permet de modifier certains paramètres de fonctionnement de l'analyseur. Ces paramètres sont : BORNES, FORMAT, KWIC, RÉFÉRENCES.
La taille et le type de contextes dépistés (cf. APPLIQUER) peuvent être précisés en modifiant le trait BORNES.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
On distingue trois types de bornes pour les contextes :
Quelles que soient les bornes utilisées, il peut arriver que le premier contexte soit plutôt borné à gauche par le début du texte. De même, il pourrait arriver que le dernier contexte soit plutôt borné par la fin du texte. Au démarrage du programme SATO, le contexte implicitement défini est un contexte numérique de cinq mots à la gauche et à la droite du mot pôle.
Les trois types de contextes peuvent être combinés. Dans ce cas, le contexte produit sera borné par la première limite valide parmi l'ensemble des bornes spécifiées.
Le contexte à bornes NUMÉRIQUES est constitué d'un nombre fixe de mots. Les paramètres valeur sont des nombres entiers positifs ou nuls qui indiquent le nombre de mots qui devront apparaître avant et après le mot pôle (cf. Contexte : Algorithme) choisi pour construire le contexte.
Le contexte à bornes DÉLIMITÉES est un contexte de longueur variable borné à gauche et à droite par un mot délimiteur.
Le premier paramètre filtre est un patron de fouille qui définit les mots qui seront interprétés comme les délimiteurs de gauche des contextes. On choisit généralement un filtre qui correspond aux ponctuations fortes : «(.,?,!,:,;,...)».
De la même manière, le second paramètre filtre est un patron de fouille qui définit les mots qui seront interprétés comme les délimiteurs de droite des contextes.
L'alternative INCLUS | EXCLU permet d'inclure ou d'exclure le délimiteur du contexte de la concordance (cf. Contexte : Algorithme).
Le contexte à bornes HOMOGÈNES se définit comme une suite de mots adjacents partageant une même valeur de propriété. Pour chaque contexte, cette valeur de propriété est celle que possède le mot pôle de la concordance. Ainsi, dans l'exemple des fables de La spanaine, si on choisit comme bornes homogènes la propriété «locuteur», chaque contexte correspondra à l'intervention du locuteur qui aura énoncé le mot cherché par le patron de concordance. Le paramètre propriété désigne une ou plusieurs propriétés séparées par une espace. Les contextes admissibles seront alors définis comme une suite de mots possédant conjointement la même valeur de propriété pour chacune des propriétés indiquées.
Même si chacun des types de bornes est facultatif, on doit spécifier au moins un type de bornes. Si plusieurs types de bornes sont définis, l'ordre de leur déclenchement est le suivant: bornes homogènes, délimitées et finalement numériques.
Le trait FORMAT permet de spécifier le format de présentation des contextes. Trois formats sont disponibles.
La valeur implicite du format des références est : «NORMAL».
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait KWIC permet de spécifier la taille des contextes courts («keywords in context") que l'on obtient depuis le menu de catégorisation de SATO.
(1) Les paramètres nombre-gauche et nombre-droit indiquent respectivement le nombre maximal de caractères à inscrire à gauche et à droite du mot central dans l'affichage des contextes en format kwic. La valeur implicite du trait est 40 40. Le paramètre extension spécifie le nombre de mots à gauche et à droite du mot central lorsque l'on veut élargir un contexte en cliquant sur le bouton + à droite du contexte court. Ce contexte élargi sera affiché dans une nouvelle fenêtre qui pourra être fermée après consultation. Enfin, le paramètre optionnel liste-de-propriétés permet d'indiquer les valeurs de propriété du mot pôle que l'on veut voir apparaitre à gauche de chaque contexte du KWIC.
(2) L'opérateur ? provoque l'affichage de la valeur du trait sélectionné.
(3) L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait RÉFÉRENCES permet de spécifier le format des références de pagination utilisées lors de l'affichage ou de l'exportation des contextes.
Le trait RÉFÉRENCES contient deux alternatives de spécification. La première concerne le nombre de références. La seconde concerne la précision de la référence. Les valeurs du trait s'interprètent de la façon suivante :
La valeur implicite du format des références est : «SIMPLE MOT», c'est-à-dire une référence au premier mot du contexte seulement avec une précision qui va jusqu'au numéro du mot.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Exemple 1. Dans cet exemple, on caractérise les bornes des contextes comme étant la troisième occurrence avant et après le mot pôle. Ensuite, on recherche les contextes de «maître» par le verbe «appliquer». On décrit les contextes. Finalement, on affiche le premier contexte trouvé.
CONTEXTE CARACTÉRISER BORNES = NUMÉRIQUES 3 3 numériques 3 3 CONTEXTE APPLIQUER maître 2 nouveau(x) contexte(s) CONTEXTE DÉCRIRE nombre total de contextes : 2 CONTEXTE AFFICHER 1 # 1 [4:11] *Page=corbeau/1/1/3 *locuteur=nil ET LE RENARD *locuteur=laspan Maître Corbeau, sur |
Dans le format normal des contextes, l'affichage comprend les éléments suivants: le numéro de la concordance, sa localisation par numéros du premier et du dernier mot [4:11], et la référence de pagination du premier mot. Viennent ensuite le texte de la concordance et les valeurs des propriétés textuelles, s'il y a lieu (locuteur, dans notre exemple). Les mots ayant servi à sélectionner la concordance sont soulignés (en gras à l'écran). Dans cet exemple, le format des références est «SIMPLE MOT», c'est-à-dire que l'on retrouve la référence du premier mot du contexte et que cette référence va jusqu'au numéro du mot dans la ligne.
Exemple 2. Dans cet exemple, on définit les bornes des contextes comme étant les 5ième mots avant et après le mot servant de pôle à la concordance. Le pôle est le pivot autour duquel est bâti le contexte. Ensuite, on recherche les contextes où apparaissent les mots «ramage» et «plumage» dans n'importe quel ordre (verbe «appliquer»). Finalement, on affiche tous les contextes.
CONTEXTE CARACTÉRISER BORNES = NUMERIQUES 5 5 numériques 5 5 CONTEXTE APPLIQUER ramage plumage 1 nouveau(x) contexte(s) CONTEXTE AFFICHER $ # 1 [65:76] *Page=corbeau/1/8/1 *locuteur=renard Sans mentir, si votre ramage Se rapporte à votre plumage |
Si l'on désire repérer les passages du texte où apparaissent dans l'ordre «maître» et «Corbeau» (la majuscule désigne le nom propre), voir l'exemple 3.
Exemple 3. Dans cet exemple, on définit les bornes des contextes comme étant les 5ièmes mots avant et après le mot servant de pôle à la concordance. Le pôle est le pivot autour duquel est bâti le contexte. Ensuite, on recherche les contextes où apparaissent les mots «maître» suivi de «Corbeau» (verbe «appliquer» et opérateur d'adjacente «*.»). Finalement, on affiche tous les contextes.
CONTEXTE CARACTÉRISER BORNES = NUMERIQUES 5 5 numériques 5 5 CONTEXTE APPLIQUER maître*. Corbeau*. 1 nouveau(x) contexte(s) CONTEXTE AFFICHER $ # 1 [2:13] *Page=corbeau/1/1/1 *locuteur=nil LE CORBEAU ET LE RENARD *locuteur=laspan Maître Corbeau, sur un arbre |
Exemple 4. Dans cet exemple, on définit les bornes des contextes comme étant un délimiteur de phrase (ici le point ou le point d'interrogation) exclu à gauche et inclus à droite. Ensuite, on recherche les contextes où apparaissent un mot se terminant par «mage» (verbe «appliquer» et filtre «$mage»). Finalement, on affiche tous les contextes portant les numéros 1 et 2.
CONTEXTE CARACTÉRISER BORNES = DÉLIMITÉES (.,?) EXCLU (.,?) INCLUS délimitées (.,?) exclu (.,?) inclus CONTEXTE APPLIQUER $mage 3 nouveau(x) contexte(s) CONTEXTE AFFICHER 1,2 # 1 [2:23] *Page=corbeau/1/1/1 *locuteur=nil LE CORBEAU ET LE RENARD *locuteur=laspan Maître Corbeau, sur un arbre perché, Tenait en son bec un fromage. # 2 [53:88] *Page=corbeau/1/7/1 *locuteur=renard Que vous êtes joli! Que vous me semblez beau! Sans mentir, si votre ramage Se rapporte à votre plumage, Vous êtes le phénix des hôtes de ces bois. |
Exemple 5. Cet exemple illustre l'utilisation de l'option RÉFÉRENCES. On supposera ici un appel préalable à l'analyseur SEGMENTATION qui aurait divisé le texte en phrases.
Voir :
Exemples 1, 2 et 3 - Analyseur Segmentation.
CONTEXTE AFFICHER 1,2,3 RÉFÉRENCE#1 *page=corbeau/1/5 ... *page=corbeau/1/8/7 #2 *page=corbeau/1/9 ... *page=corbeau/1/10/8 #3 *page=corbeau/1/11 ... *page=corbeau/1/11/3 |
Exemple 6. Voici un exemple d'affichage d'extraits. Parmi les dix extraits possibles, deux extraits ont été définis explicitement; le premier extrait contient la première fable (sans le titre) tandis que le second contient la deuxième fable. Dans une deuxième commande, on demande d'afficher l'extrait 1 ce qui a pour effet de faire afficher le texte de la fable Le corbeau et le renard.
CONTEXTE AFFICHER $ EXTRAITS# 1 [2:189] *Page=corbeau/1/1/1 ... *Page=corbeau/1/19/15 # 2 [191:358] *Page=grenouil/1/1/1 ... *Page=grenouil/1/21/7 # 3 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 4 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 5 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 6 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 7 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 8 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 9 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7 # 10 [2:358] *Page=corbeau/1/1/1 ... *Page=grenouil/1/21/7CONTEXTE AFFICHER 1 EXTRAITS *Page=corbeau/1 *{ La fable suivante est de Jean De La Fontaine ____________________________________________ } *locuteur=nil LE CORBEAU ET LE RENARD *locuteur=lafont Maître Corbeau, sur un arbre perché, Tenait en son bec un fromage. Maître Renard, par l'odeur alléché, Lui tint à peu près ce langage: *locuteur=renard "Hé! bonjour, Monsieur du Corbeau. Que vous êtes joli! Que vous me semblez beau! Sans mentir, si votre ramage Se rapporte à votre plumage, Vous êtes le phénix des hôtes de ces bois." *locuteur=lafont À ces mots, le corbeau ne se sent pas de joie; Et pour montrer sa belle voix, Il ouvre un large bec, laisse tomber sa proie. Le renard s'en saisit, et dit: *locuteur=renard "Mon bon Monsieur, Apprenez que tout flatteur Vit aux dépens de celui qui l'écoute: Cette leçon vaut bien un fromage, sans doute." *locuteur=lafont Le corbeau, honteux et confus, Jura, mais un peu tard, qu'on ne l'y prendrait plus. |
Exemple 7. L'exemple suivant illustre comment on peut lier une expression en contexte.
CONTEXTE APPLIQUER maître*.*édition:+lié $*gramr=Nompro 2 nouveau(x) contexte(s) CONTEXTE AFFICHER $ # 1 [2:13] *Page=corbeau/1/1/1 *locuteur=nil LE CORBEAU ET LE RENARD *locuteur=lafont Maître_Corbeau, sur un arbre # 2 [19:30] *Page=corbeau/1/3/3 *locuteur=lafont son bec un fromage. Maître_Renard, par l'odeur |
En modifiant ainsi le format d'édition du mot «Maître» («*édition:+lié») suivi d'un mot catégorisé comme nom propre, on obtient : «Maître_Corbeau» et «Maître_Renard».
Voir la commande : CONTEXTE APPLIQUER