SATO 4.4, Manuel de référence (mars 2007) |
Table des matières | Définitions |
Analyseur Comparaison |
---|
... permet de marquer les différences entre deux extraits de texte jugés presqu'identiques. Les extraits doivent avoir été identifiés au préalable au moyen des touches [ et ] du menu de catégorisation. Le marquage des différences s'effectue par une attribution de propriété permettant d'indiquer les ajouts. |
Exploitation :
Configuration :
Algorithme Exemple : |
Pour bien saisir la définition des divers paramètres de l'analyseur, il faut comprendre le fonctionnement de l'algorithme de comparaison entre deux extraits de texte. Cet algorithme procède selon les principes suivants.
La comparaison entre les deux extraits se fait de segment à segment. Un segment se définit comme une suite de mots se terminant par un délimiteur (PONCFORTE). Les mots définis dans le trait EXCLUSION sont exclus des segments. Donc, on construit une première paire de segments, un pour l'extrait à marquer, l'autre pour l'extrait comparé et on procède à leur comparaison. On reprend ce processus pour la paire de segments suivante jusqu'à l'épuisement des segments.
La comparaison entre deux segments procède de la façon suivante. On compare mot à mot les deux segments. Lorsqu'un mot dans l'extrait à marquer diffère du mot correspondant dans l'extrait comparé, on émet l'hypothèse qu'il fait partie d'une portion de texte (composée d'un MINIMUM X de mots) qui pourrait se retrouver plus loin (ne dépassant pas un MAXIMUM Y de mots) dans l'extrait comparé. Les mots que l'on va devoir «sauter» pour retrouver cette portion de texte (appelons-les les mots sautés) seront alors considérés comme des mots supprimés dans le segment à marquer par rapport au segment-comparé. Si cette hypothèse de portion supprimée se vérifie, alors la comparaison reprendra, dans l'extrait comparé, à la suite des mots sautés.
A l'opposé, si on ne retrouve pas la suite des X mots de l'extrait à marquer dans la suite des Y mots de l'extrait comparé, alors on conclura que le premier de ces X mots est un ajout qui va devoir être marqué. Ce marquage se réalise en affectant symbole à propriété pour ce mot. Par la suite, on reprend la comparaison à partir du prochain mot dans l'extrait à marquer.
Les paramètres MINIMUM et MAXIMUM permettent d'ajuster les modalités de vérification de l'hypothèse de suppression. Prenons un exemple. Si MINIMUM avait pour valeur 1 et si une virgule «,» est ajoutée à l'extrait-à-marquer, il y a de bonnes chances que SATO retrouve une virgule dans les Y mots suivants de l'extrait-comparé. Dans ce cas, SATO rejetterait l'hypothèse de l'ajout pour accepter celle de la suppression. Cependant, si MINIMUM a une valeur de 2, l'hypothèse de suppression exigerait que l'on retrouve non seulement la virgule mais aussi le mot suivant. Cette contrainte plus forte devrait limiter le nombre d'erreurs. De même, le paramètre MAXIMUM permet de limiter la longueur de la portion de texte présumée supprimée. Il s'agit d'une balise supplémentaire pour contrôler le dérapage de l'algorithme. Dans des cas particuliers, il peut arriver que la valeur de ces paramètres ne soit pas appropriée, auquel cas l'utilisateur pourra les modifier. Le paramètre EXCLUSION permet aussi d'effectuer une comparaison qui pourrait faire fi, par exemple, de la présence des virgules.
APPLIQUER lance l'exécution de l'analyseur. L'analyseur n'affiche aucun résultat.
Les deux premiers paramètres (extrait-1 et extrait-2) de la commande servent à identifier les extraits qui seront comparés. Le premier est l'extrait à marquer, c'est-à-dire sur lequel seront identifiées les différences. Le second est l'extrait qui servira de témoin à la comparaison. Les extraits sont désignés par leur numéro.
propriété désigne le nom de la propriété symbolique pour le texte qui sera utilisée pour marquer les ajouts repérés dans le premier extrait.
Le nom de la propriété est suivi d'un opérateur : + (plus) ou - (moins) permettant d'ajouter ou d'enlever une valeur de propriété. L'opérateur = (égal) signifie que la nouvelle valeur va remplacer l'ancienne.
Le symbole désigne la valeur de la propriété symbolique qui va indiquer qu'un mot a été ajouté dans l'extrait à marquer par rapport à l'extrait comparé.
Voir : Exemple 1 - Analyseur comparaison appliquer.CARACTÉRISER permet de modifier certains paramètres de fonctionnement de l'analyseur. Ces paramètres sont : EXCLUSION, MAXIMUM, MINIMUM, PONCFORTE.
Il est possible d'exclure des mots lors de la comparaison des deux extraits. Par exemple, on pourrait décider de ne pas tenir compte des virgules. Le filtre est le patron de fouille qui définit les mots à exclure de la comparaison. Implicitement, aucun mot n'est exclu.
L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait MAXIMUM désigne le nombre maximum de mots consécutifs de l'extrait comparé pouvant constituer une portion supprimée dans l'extrait à marquer. Sa valeur implicite est 20.
L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait MINIMUM désigne le nombre minimum de mots consécutifs de l'extrait à marquer que l'on va tenter de retrouver dans l'extrait comparé. Sa valeur implicite est 2.
L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
La comparaison entre les extraits se fait segment par segment. Un segment est composé d'une suite de mots se terminant par un délimiteur. Généralement, le délimiteur est une ponctuation de fin de phrase. C'est pourquoi le trait est nommé PONCFORTE. Le filtre est le patron de fouille qui définit les délimiteurs de segments dans les deux extraits. Sa valeur implicite est la liste des marques de ponctuation de phrases : (.,?,!,:,;,...).
L'opérateur = permet de modifier la valeur du trait. L'opérateur ? provoque l'affichage de la valeur du trait. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Exemple 1. Voici un exemple de texte présentant deux versions d'une clause de convention collective de travail.
Dans ce texte, le premier paragraphe constitue l'extrait numéro 1 et le second est l'extrait numéro 2. Les commandes suivantes permettent de marquer les ajouts contenus dans l'extrait 1 et de les afficher en les soulignant :
* PROPRIÉTÉ DÉFINIR marque SYMBOLIQUE POUR TEXTE oui |
* ANALYSEUR COMPARAISON APPLIQUER 1 2 marque = OUI |
$*marque=oui |
* TEXTE CARACTÉRISER PRÉSENTATION - marque page |
Commentaire |
* TEXTE AFFICHER $ |
L'Employeur s'engage, à moins que les besoins du service ne |
le justifient pas, à affecter immédiatement un salarié à tout |
poste dont le titulaire est absent pour un délai d'au moins |
cinq (5) jours ouvrables, sauf s'il s'agit de vacances ou de |
jours de maladie. |
Sauf s'il s'agit de vacances, l'Employeur s'engage à |
affecter immédiatement un salarié à tout poste dont le |
titulaire est absent pour une période d'au moins cinq (5) |
jours ouvrables consécutifs ou non. À moins d'entente |
contraire entre les parties, il en va de même dans les cas de |
congés de maladie de plus de dix jours ouvrables. |