SATO 4.4, Manuel de référence (mars 2007) | |
Table des matières | Définitions | |
Introduction | |
---|---|
Avec la sortie de la version 4.3, SATO passe résolument du côté d'UNICODE, ce système d'encodage permettant de représenter les caractères de toutes les langues connues. Du point de vue des utilisateurs habitués aux langues latines, ce changement pourra paraître mineur dans la mesure où l'interface WEB de SATO assure la conversion de l'encodage vers ce système universel. Cependant, du point de vue du code informatique, il s'agit d'un changement majeur qui a entraîné des modifications importantes au logiciel et au format interne des fichiers manipulés par SATO. Nous avons aussi profité de cette réécriture pour supprimer des limites imposées à SATO en raison des contraintes de mémoire héritées du passé. En particulier, la limite sur le nombre de propriétés symboliques, utilisées pour catégoriser les formes lexicales ou leurs occurrences en contexte, a été largement étendue.
Comme pour la version 4.2 publiée en 2004, la version 4.3 du Manuel est entièrement rédigée en HTML et s'intègre à l'interface WEB qui caractérise maintenant SATO. En effet, depuis l'abandon de l'ancienne version DOS, SATO utilise une architecture de type client-serveur qui distingue, dans des logiciels séparés, le module client, un navigateur Internet standard qui se charge de l'affichage et de l'envoi des requêtes, et le module de traitement lui-même, c'est-à-dire le logiciel SATO, mais aussi divers programmes offrant à l'utilisateur l'accès à un ensemble de ressources. En complément à ce Manuel de référence, et en l'absence d'un Guide d'utilisation écrit par un tiers, nous maintenons une Foire aux questions (FAQ) évolutive destinée à soutenir la formation au logiciel.
Du point de vue de l'utilisateur, les changements apportés à SATO avec l'introduction de l'encodage Unicode concernent surtout la définition des alphabets qui a été simplifiée. En particulier, l'ordre de tri des caractères n'a plus à être précisé puisque SATO adhère maintenant aux normes du tri Unicode. Aussi, pour l'ouverture des fichiers en mode texte, l'option permettant d'indiquer le type d'encodage a été éliminée au profit de l'adoption universelle de l'encodage Unicode. Les fonctionnalités du bureau permettent cependant de convertir entre les divers formats d'encodage.
Le Manuel de référence de SATO est composé de 11 chapitres.
Suite au présent chapitre, on trouvera, au chapitre deux, une présentation qui introduit le lecteur aux divers usages du logiciel. On y présente le modèle informatique qui est à la base du logiciel, et les opérations logiques que permet ce modèle. On y présente l'organisation ergonomique de SATO et les étapes les plus courantes d'une analyse de corpus réalisée à l'aide du logiciel.
Le troisième chapitre présente les fonctions du bureau WEB permettant de gérer les corpus et les résultats du traitement. Cette interface de gestion est indépendante de SATO et on peut donc y greffer des traitements réalisés par une variété de modules informatiques. Pour marquer cette différence, l'interface de gestion se présente en teintes de bleu alors que l'interface à SATO se présente dans des tons orangés, le tout étant configurable en modifiant la feuille de style associée à chacune des interfaces.
Le chapitre 4 est consacré à la préparation d'un corpus pour traitement par SATO.
On arrive finalement au chapitre 5 qui documente chacune des commandes de SATO. Plutôt que de présenter les commandes en ordre alphabétique, nous avons choisi, à la suggestion de plusieurs utilisateurs, de les organiser en blocs logiques permettant de distinguer les fonctions fondamentales du logiciel des fonctions plus spécialisées. Nous espérons ainsi faciliter l'apprentissage du logiciel. Pour la présentation de la syntaxe des commandes SATO, ce manuel utilise les conventions typographiques décrites au chapitre 7 (définitions).
Le chapitre 6 contient une brève description des outils qui complètent l'interface à SATO : le journal des opérations, la section Tâches qui combine des procédures et des méthodes, et l'accès au Manuel.
Le chapitre 7 définit des termes et composantes syntaxiques utilisées par les diverses commandes de SATO et donne des indications sur les limites quantitatives des structures de données de SATO.
Le chapitre 8 documente les messages d'erreurs les plus courants produits par le logiciel.
La présente édition du Manuel a été augmentée de deux chapitres destinés à soutenir la formation. Le chapitre 9, Processus de catégorisation pas-à-pas, illustre un processus de catégorisation manuelle du lexique. Le chapitre 10, Soumission d'un corpus - Foire aux questions vise à répondre aux questions les plus courantes qui se posent lorsqu'on soumet un corpus à SATO. Ce chapitre s'adresse tout particulièrement aux utilisateurs des versions antérieures de SATO qui ont encore dans leur espace de travail des textes à l'encodage IsoLatin.
Enfin, le chapitre 11, de nature plus technique, est un guide de programmation des interfaces HTML à SATO. En suivant ce guide, on pourrait modifier totalement l'apparence de l'interface et se servir de l'environnement client-serveur du système pour intégrer tout module de traitement capable de s'intégrer dans un modèle de transactions par fichiers.
Signalons que SATO est aussi livré avec un deuxième document : le Guide d'installation et de gestion qui s'adresse au responsable de l'installation du logiciel.
Nos remerciements pour cette nouvelle version de SATO iront d'abord au professeur Jules Duchastel, sociologue à l'UQAM et titulaire de la chaire Mondialisation-Citoyenneté-Démocratie du Canada. Jules Duchastel, directeur fondateur du Centre d'analyse de texte par ordinateur de l'UQAM (ATO) en 1983, a constamment soutenu le développement et la diffusion du logiciel SATO dans ses versions 3 et 4. La nouvelle livraison du logiciel SATO a été rendue possible grâce à une subvention obtenue par le professeur Duchastel dans le cadre du Fonds canadien pour l'innovation (FCI). Plus encore, cette subvention a permis le financement des équipements qui nous permettent d'offrir SATO en usage libre sur les serveurs de la Chaire et du Centre ATO. Nous voulons aussi remercier notre collaborateur Dimitri Della Faille qui, dans le cadre de ce projet FCI, a été la cheville ouvrière de la nouvelle interface HTML de SATO.
Nous voulons remercier toute les collaborateurs associés au Centre d'analyse de textes par ordinateur de l'UQAM. Provenant de diverses disciplines et universités, ces collaborateurs et utilisateurs de SATO nous alimentent de leurs idées et suggestions. Aussi, ces dernières années, nous avons bénéficié de façon particulière de l'apport de chercheurs et d'étudiants du département de linguistique de l'UQAM : Monique Lemieux, Claire Gélinas-Chebat, Fernande Dupuis et Monique Dufresne.
La tradition d'analyse de texte assistée par ordinateur à l'Université du Québec à Montréal remonte aux premières années de la création de l'université. Nos remerciements iront donc également au professeur de philosophie Jean-Guy Meunier, qui est à l'origine de la conception du logiciel au début des années 1970, et à Stanislas Rolland qui en a programmé la toute première version.
Finalement, nous tenons à remercier les nombreux utilisateurs qui nous ont transmis leurs suggestions et qui ont testé les diverses versions du logiciel. Le développement de SATO, en tant que produit universitaire, aurait été impossible sans l'appui et l'indulgence des utilisateurs. Merci!
Le Centre d'analyse de texte par ordinateur (ATO) assure le développement continu et l'entretien de SATO. Les logiciels informatiques sont toutefois des objets très complexes et SATO ne fait pas exception. Il est donc impossible de garantir son parfait fonctionnement.
Si une erreur de fonctionnement du programme est observée, le Centre ATO s'engage à tenter de régler le problème sur réception de la documentation pertinente. Celle-ci doit comprendre au moins une copie électronique du corpus ainsi qu'une description de la séquence des commandes ayant généré cette erreur.
Les copies du logiciel SATO sont dédicacées. La dédicace, qui apparaît au début de l'exécution du programme, définit les droits d'utilisation du logiciel. Toute utilisation qui ne respecte pas cette dédicace constitue une violation des droits.
Les remarques et suggestions des utilisateurs de SATO sont très importantes pour orienter son développement. Voilà pourquoi nous invitons les utilisateurs à nous écrire pour nous faire part de leurs suggestions. Merci et bon apprentissage.
SATO (Système d'analyse de texte par ordinateur), Version 4.3, mars 2007
François Daoust
(daoust.francois@uqam.ca)
Centre d'analyse de textes par ordinateur (ATO)
Université du Québec à Montréal
C.P. 8888, Succ. Centre-ville
Montréal (Québec), CANADA, H3C 3P8