SATO 4.4, Manuel de référence (mars 2007)
Table des matières | Définitions
Soumission d'un corpus / Foire aux questions
Encodage Documents, sections et mise en forme Langues et alphabets Propriétés Soumettre et analyser Autres questions liées à la soumission


ENCODAGE

1.1 Qu'est-ce qu'Unicode, UTF-8, IsoLatin, ISO-8859-1, DOS-IBM850 et les entités HTML?

Unicode, UTF-8, IsoLatin, ISO-8859-1, DOS-IBM850 et les entités HTML sont des manières d'encoder les caractères dans un fichier texte. Unicode est un système évolutif dans lequel tous les caractères connus se voient attribuer un numéro unique. UTF-8 est un système de représentation de ces numéros utilisant un nombre variable d'octets. IsoLatin est un ensemble de codes de caractères sur un octet pouvant représenter les caractères utilisés dans un certain nombre de langues latines. ISO-8859-1 est une des normes ISO (International Organization for Standardization ) décrivant le code Isolatin. IBM850 est un code de caractère à un octet développé pour le système DOS et qui fournit une couverture similaire à celle de l'IsoLatin. Enfin, les entités HTML et, plus généralement les entités caractères, sont des manières symboliques de représenter des caractères Unicode en ne faisant appel qu'aux caractères ASCII reconnus par tous les systèmes informatiques.

SATO 4.3 utilise l'encodage Unicode (http://fr.wikipedia.org/wiki/Unicode) pour l'affichage et le traitement des caractères. Ce type d'encodage permet à SATO de traiter pratiquement toutes les langues écrites de la planète.

SATO, dans ses versions antérieures, utilisait l'encodage IsoLatin et DOS-IBM850. Les corpus qui ont été soumis à une version de SATO antérieure à 4.3 sont convertis automatiquement à l'Unicode lors du démarrage du module d'analyse de SATO 4.3. De même, lorsqu'on envoie sur le serveur de nouveaux fichiers (extension .sat, .txt, .csa, etc.), ces fichiers sont enregistrés en UTF-8 sur le serveur. Cependant, les fichiers envoyés sur le serveur avant le passage à la version 4.3 ont été enregistrés avec l'encodage Isolatin.

Même s'il est possible d'afficher et de traiter directement les fichiers en Isolatin avec la nouvelle version de SATO, il est fortement recommandé de les convertir au départ en UTF-8 pour les rendre totalement compatibles avec la nouvelle interface. Pour effectuer cette conversion, consulter la question 1.6 (Comment convertir en Unicode (UTF-8) des fichiers conservés en Isolatin par les versions antérieures de SATO?).

« Retour au menu de la foire aux questions


1.2. Que dois-je faire lorsque SATO ne lit pas mes caractères accentués (ils apparaissent bizarrement)?

SATO 4.3 fonctionne en Unicode avec l'encodage UTF-8 du texte. Si les caractères ne s'affichent pas correctement dans SATO, il est fort probable que le problème soit lié à l'encodage du texte source soumis à SATO. Il y a deux possibilités.

1. Vos textes sources (.sat, .txt) s'affichent correctement dans un autre jeu de caractères (IsoLatin en général). Pour le vérifier, on doit les faire afficher en utilisant divers modes d'encodage jusqu'à temps de trouver le bon. Pour effectuer cette vérification, consulter la question 1.3 (Que dois-je faire si certains caractères n'apparaissent pas comme il faut dans Outils/Fichier/Afficher?). Une fois que le mode d'encodage des fichiers aura été repéré, on pourra les convertir en UTF-8 en suivant la procédure décrite dans la question 1.6 (Comment convertir en Unicode (UTF-8) des fichiers conservés en Isolatin par les versions antérieures de SATO?).

2. Votre ancien corpus a dans son entête la mention Isolatin.

Même si SATO s'attend à traiter de l'UTF-8, il est possible de lui désigner un encodage alternatif, par exemple l'Isolatin. Si votre fichier Isolatin a été converti en UTF-8, il faudra s'assurer de supprimer la spécification de l'Isolatin. Pour ce faire, aller dans Outils/Fichier/Modifier, sélectionner le corpus qui pose problème (fichier .sat) et éditer l'entête en enlevant la mention IsoLatin. Soumettre une nouvelle fois le corpus à SATO.

« Retour au menu de la foire aux questions


1.3. Que dois-je faire si certains caractères n'apparaissent pas comme il faut dans Outils/Fichier/Afficher?

Lorsque vous demandez à SATO d'afficher un fichier (Outils/Fichier/Afficher), certains caractères du fichier n'apparaissent pas ou ils semblent corrompus.

QUE FAIRE?

Vérifier l'option d'affichage. Dans la section 2 du formulaire (Choisir l'option d'affichage), sélectionner l'option d'affichage adéquate. Par défaut, SATO affiche les textes avec l'encodage UTF-8. Si cette option ne permet pas l'affichage adéquat des caractères de votre texte, essayer IsoLatin.

« Retour au menu de la foire aux questions


1.4. Que dois-je faire si, lorsque que j'affiche le texte ou le lexique d'un corpus que je viens de générer, certains caractères sont accolés aux mots ou sont disparus?

Lorsque vous demandez à SATO d'afficher un texte ou un lexique à l'intérieur de l'interface avancée, il apparaît que SATO a omis certains espaces. Ainsi, par exemple, au lieu de séparer « à cet endroit » en trois mots, SATO affiche « àet endroit ». Ou bien, vous notez que SATO n'affiche pas les mots comme il le faudrait. Ainsi, par exemple au lieu d'afficher « néerlandais », SATO affichera « nélandais ».

QUE FAIRE?

Il est possible que ce problème soit relié au fait que «à» soit en Isolatin plutôt qu'en UTF-8. Pour le vérifier, il s'agit d'utiliser Outils/Fichier/Afficher dans le bureau de SATO en choisissant de faire afficher le texte en format Isolatin. Si le texte apparaît correctement, c'est qu'il est en Isolatin. Le plus simple est de le convertir en UTF-8 en suivant la procédure décrite dans la question 1.6 (Comment convertir en Unicode (UTF-8) des fichiers conservés en Isolatin par les versions antérieures de SATO?).

« Retour au menu de la foire aux questions


1.5. Certains mots semblent vides ou contiennent des espaces. Est-ce normal?

SATO reconnaît maintenant le caractère Unicode correspondant au «blanc insécable» : numéro 160 en décimal ou A0 en hexadécimal. Un ou plusieurs blancs insécables entourés de séparateurs donne une entrée lexicale qui semble vide à l'affichage. De même si un blanc insécable est entourée de caractères pouvant constituer un mot, on aura une forme lexicale qui semble contenir des trous. Ce comportement est donc normal, mais pas nécessairement voulu. Dans ce cas, on aurait intérêt à remplacer ces blancs insécables par des espaces conventionnels. À l'inverse, on voudra utiliser l'espace insécable pour lexicaliser une expression dont les composantes sont séparées, par exemple «mea culpa». Le blanc insécable peut être représenté par l'entité caractère  .

« Retour au menu de la foire aux questions

1.6. Comment convertir en Unicode (UTF-8) des fichiers conservés en Isolatin par les versions antérieures de SATO?

Pour assurer le passage harmonieux vers la version Unicode de SATO, il est recommandé de convertir les fichiers de caractères qui auraient été enregistrés en Isolatin par l'interface des versions antérieures à SATO 4.3. Pour ce faire, il faut suivre la procédure suivante.

- Dans le bureau, aller sur la page Outils/Fichier/Filtrer et sélectionner Conversion d'encodage des caractères;
Sélectionner un fichier en particulier ou tous les fichiers (*.*);
- Choisir le type de conversion : IsoLatin vers UTF-8
- Dans la liste des fichiers, cocher les fichiers à convertir. Il est à noter qu'il NE FAUT PAS cocher les fichiers en format binaire générés par SATO. Ces fichiers portent les extensions suivantes : .tex, .pro, .fsi, .pag, .ini, et .pco;
- Cliquer sur Soumettre.

« Retour au menu de la foire aux questions


DOCUMENTS, SECTIONS ET MISE EN FORME

2.1. Est-ce que je peux envoyer un document .doc, .rtf, .pdf ou autre?

Pour soumettre un texte à SATO, ce texte doit pouvoir rentrer dans la boîte de saisie de votre navigateur (dans le bureau, onglet Outils/Créer et soumettre un corpus, section 7 Entrer le contenu du corpus de la page). En général, on procède par une opération de copier-coller du traitement de texte vers la boîte de saisie. Dès lors, seul le contenu en format texte sera copié. Les mises en forme seront ignorées.

« Retour au menu de la foire aux questions


2.2. Est-ce que je peux envoyer plusieurs documents à la fois?

À moins d'utiliser SATO en mode local, ou de disposer d'un accès à son compte en mode FTP, il n'est pas possible d'envoyer plusieurs documents à la fois. Pour envoyer plusieurs documents, il faut utiliser autant de fois que nécessaire le formulaire accessible sous l'onglet Outils/Fichier/Envoyer.

Il est aussi possible d'insérer directement le contenu de plusieurs documents à l'intérieur de la boîte de saisie du formulaire Outils/Créer et soumettre un corpus (case 7. Entrer le contenu du corpus). Cette méthode n'est pas pas recommandée pour les corpus composés de documents volumineux qui ont avantage à être enregistrés dans des fichiers indépendants. Pour distinguer les textes entre eux, on utilise des déclarations de pagination. En voici quelques exemples :

*page=texte1
qui indique le début du premier texte;

*page=texte2
qui indique le début du second texte;

etc. « texte1 » et « texte2 » peuvent s'écrire à votre convenance. Il est recommandé d'utiliser l'identificateur du document pour y inscrire des informations sur le document, par exemple la source, la date de production, etc. Exemples :

*page=devoir1
qui indique le début du premier texte du quotidien Devoir

*page=presse2
qui indique le début du second texte du quotidien La Presse

*page=2007-01-T1
qui indique le début du premier texte de janvier 2007

*page=1957-12-T3
qui indique le début du troisième texte de décembre 1957

*page=02FemFumFra25
qui indique que le texte 02 correspond au profil d'une femme (Fem), fumeuse (Fum), francophone (Fra) de 25 ans.

SATO permet de filtrer la propriété page. Ainsi, dans le dernier exemple
$*page=$Fum$
sélectionnerait tous les mots des documents correspondant à des fumeurs quel que soit leur sexe, leur âge, etc.

Il est généralement conseillé de réserver l'usage de la propriété page aux documents entiers et d'utiliser une autre propriété pour les sections à l'intérieur des documents. Notons que la propriété page est une propriété native de SATO dont les valeurs seront attribuées automatiquement lors de la génération du corpus.

« Retour au menu de la foire aux questions


2.3. Est-ce que je peux constituer un corpus à partir de plusieurs fichiers textes?

La propriété page de SATO sert à indiquer la présence d'un document. Lorsqu'on crée un corpus contenant plusieurs textes disponibles sur le bureau SATO on peut utiliser l'opérateur @ pour indiquer à SATO le nom du fichier qui contient le texte du document. Ce contenu sera inséré dans le corpus et le nom du fichier servira à identifier le document. La syntaxe est alors la suivante :

*page=@texte1.txt

Cette ligne peut-être répétée autant de fois qu'il le faut pour insérer dans le corpus tous les documents désirés.

« Retour au menu de la foire aux questions


2.4. Comment puis-je indiquer à SATO que mon texte se compose de sections de nature différente (locuteur, chronologie, questions/réponses, etc.)?

SATO permet, grâce aux propriétés, de différencier des sections en les identifiant par un symbole préalablement défini dans l'entête du corpus.

On peut créer plusieurs propriétés permettant de découper le corpus en segments de diverses natures. Les sections qu'on cherche à identifier peuvent, par exemple, distinguer le locuteur (nom, sexe, poste d'emploi, position éthique, etc.), la chronologie (numéro de séquence, jour, année, etc.), les questions et réponses, etc.

Les propriétés doivent être définies dans la section 5 (Autres déclarations) du formulaire outils/Soumission/Créer et soumettre un corpus. Voir la section suivante du manuel pour la syntaxe des propriétés : satoman-fr_propriete.html#definir

« Retour au menu de la foire aux questions


2.5. Est-ce que je peux garder la mise en forme de mon texte (soulignement, italique, gras, etc.)?

SATO n'analyse que le texte en format brut. Cependant, vous pouvez définir une propriété textuelle qui permettrait de noter la mise en forme du texte original.

COMMENT FAIRE?

Étape 1.
Dans la section 5 ( Autres déclarations) de la page Outils/ Soumission/Créer et soumettre un corpus, on doit définir une propriété textuelle en utilisant la syntaxe suivante :

propriété NOM symbolique pour texte italique gras souligné

Où NOM est le nom de la propriété : à votre choix (en un mot);
où, dans cet exemple, italique, gras, souligné sont les valeurs de votre propriété (appelées symboles dans SATO) : à votre choix, en un mot et séparés par un espace.

Étape 2.
Dans votre texte, lors de la préparation du corpus, indiquer les mises en forme originales du texte.

Par exemple, à partir de l'extrait suivant de l'article de Jules DUCHASTEL, François DAOUST et Dimitri DELLA FAILLE (2004). « SATO-XML : une plateforme Internet ouverte pour l'analyse de texte assistée par ordinateur. », in Gérald Purnelle, Cédrick Fairon et Anne Dister, Le Poids des mots, Volume 1 (Actes des 7ièmes journées internationales d'analyse statistique des données textuelles), Louvain, Presses universitaires de Louvain :

« Architecture de la plateforme SATO-XML

On pourrait qualifier le logiciel SATO de tableur textuel. Le système permet d'accueillir un corpus brut ou déjà annoté; il permet de l'annoter ou de changer l'annotation déjà présente, de catégoriser le corpus selon des grilles définies par l'analyste et une fois décrit, de l'exploiter de multiples manières. SATO permet de garder une trace complète du processus de description et d'analyse du corpus. Le logiciel offre aussi la possibilité de programmer des dispositifs de lecture électronique (Daoust, 2002) et, donc, d'établir des protocoles d'analyse personnalisés et adaptés à chaque type de discours. »

Texte mis en forme pour SATO :

« *NOM=gras Architecture de la plateforme SATO-XML *NOM=nil

On pourrait qualifier le logiciel SATO de tableur*NOM=italique textuel*NOM="italique". Le système permet d'accueillir un corpus brut ou déjà annoté; il permet de l'annoter ou de changer l'annotation déjà présente, de catégoriser le corpus selon des grilles définies par l'analyste et une fois décrit, de l'exploiter de multiples manières. SATO permet de garder une trace complète du processus de description et d'analyse du corpus. Le logiciel offre aussi la possibilité de programmer des dispositifs de *NOM=italique lecture électronique *NOM=nil (Daoust, 2002) et, donc, d'établir des protocoles d'analyse personnalisés et adaptés à chaque type de discours ».

Dans cette syntaxe, la valeur affectée à la propriété NOM a cours tant qu'elle n'a pas été modifiée, sauf si l'affectation de propriété est directement collée à la droite du mot. Dans ce cas, elle n'affecte que ce mot. La valeur de la propriété peut, ou pas, être entre guillemets anglais si la valeur est suivie d'un espace ou d'une fin de ligne. Sinon, elle doit obligatoirement être entre guillemets. On utilise *NOM=nil pour indiquer que la propriété n'a pas de valeurs.

« Retour au menu de la foire aux questions


2.6. Est-ce que je peux demander à SATO de ne pas analyser certaines sections?

Oui, il est possible d'indiquer à SATO de ne pas tenir compte, lors de l'analyse, de certaines sections du texte. À des fins de documentation, on peut choisir de garder des commentaires. Ces commentaires ne seront pas traités par SATO même s'ils pourront apparaître lors de l'affichage du texte.

COMMENT FAIRE?

Lors de la préparation du corpus, pour mettre en commentaire une portion du corpus, commencer la section par les caractères *{ et terminer la section par le caractère }. Le texte peut être collé aux caractères { » et } ou non.

Exemple extrait du corpus des lettres pastorales des mouvements religieux du Québec (Projet Duplessis) :

« *{date-10-35 } Les périodes de crise donnent le jour, entre autres choses, à de nombreux journaux. L'approche des élections stimule aussi la publication. Quand les élections concordent avec la crise, la statistique est impuissante à enregistrer toutes les naissances. » 

Dans cet exemple, les informations qui se trouvent entre les deux accolades ne seront pas traitées par SATO.

« Retour au menu de la foire aux questions


LANGUES ET ALPHABETS

3.1. Est-ce que je peux soumettre à SATO des textes en arabe, chinois, hébreu, inuktitut, bengali, etc.?

Oui. Depuis la version 4.3, SATO accepte n'importe quelle langue utilisant des caractères définis dans la norme Unicode.

« Retour au menu de la foire aux questions


3.2. Est-ce que SATO supporte plusieurs langues dans un même corpus?

Oui, SATO permet de constituer un corpus contenant jusqu'à 4 langues différentes. Les langues utilisées doivent être définies par une délaration d'alphabet. Quelques langues sont déjà prévues dans le formulaire de création du corpus. Pour les autres, on doit introduire la déclaration au début de la section 5 (Autres déclarations) de la page Outils/ Soumission/Créer et soumettre un corpus). Lors de l'analyse, si on veut regrouper des termes ayant des équivalences sémantiques entre les diverses langues du corpus, il faut effectuer une catégorisation du lexique. Par exemple, les formes lexicales trabajo, travail, work, werk pourraient recevoir la valeur catégorielle travail.

« Retour au menu de la foire aux questions


3.3. Pourquoi est-ce que les mots en hébreu et en arabe apparaissent à gauche plutôt qu'à droite dans le lexique?

Lorsque vous demandez à SATO d'afficher le lexique à l'intérieur de l'interface avancée, vous notez que SATO aligne les mots en hébreu et en arabe à gauche plutôt qu'à droite.

Cela s'explique par la capacité des navigateurs Internet de reconnaître que ces caractères Unicode sont utilisées dans des langues qui s'écrivent de droite à gauche, ce qui peut être confondant lorsque le corpus utilise aussi des langues s'écrivant de gauche à droite.

« Retour au menu de la foire aux questions


3.4. Quel ordre de tri alphabétique est utilisé dans SATO?

Pour le tri alphabétique des formes lexicales, SATO fait appel à un algorithme de tri Unicode. Il est paramétré pour tenir compte des particularités du français. Le lexique des mots du corpus est présenté langue après langue dans l'ordre de déclaration des alphabets.

« Retour au menu de la foire aux questions


PROPRIÉTÉS

4.1. Que dois-je faire si, lorsque je soumets à SATO un ancien corpus catégorisé, SATO m'indique comme erreur qu'il ne trouve pas les propriétés qui apparaissent tronquées?

Lorsque vous soumettez à SATO un corpus catégorisé dans SATO 4.2 ou une version plus ancienne, SATO affiche de nombreux messages d'erreur. SATO ne reconnaît pas les propriétés qui apparaissent tronquées. Ainsi, par exemple au lieu de reconnaître la propriété « *âge= », « *caractère= », « *sémantique= » qui ont été définies dans l'entête du corpus, SATO indiquera que les propriétés n'existent pas. Dans le message d'erreur, ces propriétés apparaissent tronquées de plusieurs caractères.

QUE FAIRE?

Ce problème n'est lié qu'aux propriétés ayant des caractères accentués. La meilleure solution à ce problème consiste à convertir ces anciens fichiers de l'Isolation à l'Unicode avant de les soumettre à SATO. Voir la question 1.6 (Comment convertir en Unicode (UTF-8) des fichiers conservés en Isolatin par les versions antérieures de SATO?).

« Retour au menu de la foire aux questions


4.2. Que dois-je faire si mon corpus contient des propriétés, mais lorsque je le soumets à SATO, il m'indique que la propriété est invalide ou absente?

Lorsque le corpus est soumis à SATO, le programme valide les valeurs de propriété attribuées à travers le texte en les confrontant à la définition fournie en entête du corpus. Si un symbole de propriété symbolique est mal ortographié ou ne fait pas partie de la définition de le propriété, une erreur est affichée et la génération du corpus ne sera pas complétée. Il arrive souvent qu'on oublie de définir dans l'entête du corpus la propriété ou certains des symboles utilisés. La propriété se définit dans la section 5 (Autres déclarations) de la page Outils/Soumission/Créer et soumettre un corpus. Voir la section suivante du manuel pour la syntaxe des propriétés : satoman-fr_propriete.html#definir

QUE FAIRE?

1. Après avoir quitté le module d'analyse de SATO pour revenir au bureau, cliquer sur Fichier/Modifier.
2. Soumettre avec le le patron de sélection *.sat.
3. Cocher le nom du fichier et soumettre. On verra alors l'entête du corpus produite par le formulaire de soumission du corpus. Il s'agira de corriger l'entête en ajoutant ou en modifiant les déclarations de propriété.
4. Cliquer sur le bouton d'envoi du fichier corrigé.
5. Resoumettre le corpus en utilisant le formulaire Outils/Soumission/Soumettre un corpus existant.

Il est aussi possible que les déclarations de propriété soient parfaites et que l'erreur soit dans le texte. Par exemple, il peut s'agir d'une erreur d'orthographe dans le nom de la propriété ou de sa valeur. Il peut aussi s'agir d'une erreur dans la syntaxe de l'affectation de propriété, comme la présence d'espaces à l'intérieur de l'affectation. Dans ce cas, il faudra modifier le fichier texte en cliquant sur Fichier/Modifier. Le fichier portera l'extension .sat ou l'extension .txt si les documents du corpus résident dans des fichiers indépendants.

« Retour au menu de la foire aux questions


SOUMETTRE ET ANALYSER

5.1. Quelle est la différence entre analyser et soumettre?

Il ne faut pas confondre la soumission et l'analyse. Soumettre un corpus dans SATO génère les fichiers internes utilisés ensuite par SATO pour l'analyse du corpus représenté sous la forme d'un plan Lexique/Occurrences. Cette opération est préalable à la première analyse. Analyser un corpus ouvre les fichiers binaires précédemment générés lors de la soumission du corpus.

« Retour au menu de la foire aux questions


5.2. Comment expliquer qu'à chaque fois que je soumets mon corpus à SATO, je perds le travail de catégorisation effectué, je perds la définition des propriétés, je perds la définition des sous-textes?

Lorsque le corpus est soumis à SATO, le programme génère des fichiers en format interne à SATO. L'annotation du corpus s'effectue sur ces fichiers et non sur le texte original en format texte. Si on soumet le corpus de nouveau, on efface les fichiers préalablement générés et augmentés par le travail d'analyse.

L'opération de soumission d'un corpus est une opération de nature différente de celle de l'analyse. Si on veut commencer ou poursuivre une analyse d'un corpus qui a déjà été généré, il faut utiliser la section Analyser du menu de gauche du bureau. On y retrouve des corpus personnels et des corpus publics. À moins qu'il soit nécessaire de transformer le texte (par ex.: orthographe, ordre des paragraphes, rajout ou modification de sections), lorsqu'on quitte une session de SATO et qu'on désire y revenir plus tard, on utilisera la section Analyser.

« Retour au menu de la foire aux questions


5.3. Comment faire si je désire soumettre à nouveau mon corpus sans perdre le travail de catégorisation déjà effectué?

Lorsque le corpus est soumis une nouvelle fois à SATO, le programme génère une matrice unique à partir de laquelle SATO traitera le texte et le lexique. Ainsi, le travail de catégorisation effectué en analyse sera écrasé.

QUE FAIRE?

Afin de ne pas perdre l'attribution des propriétés telle qu'effectuée par la catégorisation dans SATO, il est suggéré de créer une nouvelle version de corpus en exportant le corpus à partir de l'interface avancée de SATO. Dans l'interface avancée, aller dans Tâches/Exportation/Procédures. Avant d'exporter le corpus, il est important de vérifier dans Texte/Caractériser/Présentation que les propriétés que l'on désire exporter sont présentes. Au besoin, on peut retirer des propriétés.

Il est également suggéré d'utiliser le journal pour créer des scénarios d'opérations qui vont permettre de répéter certaines opérations de travail. Mais attention, dans le journal, les lexèmes sont référencés par leur numéro unique dans la matrice. Dans un corpus modifié et soumis à nouveau, il est plus que probable que les lexèmes auront un numéro différent.

« Retour au menu de la foire aux questions


AUTRES QUESTIONS LIÉES À LA SOUMISSION

6.1. Que faire lorsque je soumets mon corpus (constitué de plusieurs textes) et que SATO m'indique qu'il ne contient aucun mot?

Lors de la soumission d'un corpus contenant plusieurs documents, SATO indique que le corpus ne contient aucun mot. Il y a plusieurs explications possibles. Soit les documents ne sont pas disponibles dans votre espace de travail, soit SATO ne reçoit pas les indications adéquates.

QUE FAIRE?

1. Pour que SATO puisse générer un corpus constitué de plusieurs documents, il faut que ces documents soient disponibles dans votre espace de travail. Aller dans Outils/Fichier/Afficher et demander à SATO d'afficher le contenu de votre corpus (*.sat). Vérifier ensuite que les documents renseignés dans ce fichier sont disponibles dans votre espace de travail.

2. Pour que SATO puisse générer un corpus constitué de plusieurs documents, il faut indiquer à SATO où aller chercher ces documents. Aller dans Outils/Fichier/Afficher et demander à SATO d'afficher le contenu de votre corpus (*.sat). Vérifier ensuite :

1. Que la commande qui appelle les documents soit bien la suivante :
*page=@document.txt
Une erreur fréquente consiste à oublier l'opérateur @ qui indique d'aller chercher les mots à l'intérieur du fichier.

2. Que les fichiers renseignés dans la commande *page=@document.txt portent bien leur extension initiale (généralement .txt).

3. Que les fichiers renseignés dans la commande *page=@document.txt sont correctement orthographiés. Rappelons que les noms de fichiers devraient être composés uniquement de caractères alphabétiques non accentués ou de chiffres. Les caractères _ et - sont admis mais ne devrait pas se retrouver en première position.

« Retour au menu de la foire aux questions


6.2. Que faire lorsque tous les textes de mon corpus n'apparaissent pas lorsque je le soumets à SATO?

Lors de la soumission d'un corpus contenant plusieurs documents, SATO n'indique aucune erreur, mais lorsque je demande à SATO de décrire le texte (Texte/Décrire), certains textes n'y sont pas indiqués. Il y a plusieurs explications possibles.

QUE FAIRE?

Pour que SATO puisse générer un corpus constitué de plusieurs documents, il faut indiquer à SATO où aller chercher ces documents. Aller dans Outils/Fichier/Afficher et demander à SATO d'afficher le contenu de votre corpus (*.sat). Vérifier ensuite :

1. Que la commande qui appelle les documents soit bien la suivante : *page=@document.txt

2. Que les fichiers renseignés dans la commande *page=@document.txt portent bien leur extension initiale (.sat, .txt, etc).

3. Que les fichiers renseignés dans la commande *page=@document.txt sont correctement orthographiés ou portent les accents nécessaires.

« Retour au menu de la foire aux questions


6.3. Quelle est la différence entre soumettre à SATO et soumettre à ALCESTE?

ALCESTE est un logiciel développé par Max Reinert (http://www.printemps.uvsq.fr/Adresses.htm#Reinert) et qui est distribué par la société Image (http://www.image.cict.fr/). SATO et ALCESTE proposent deux approches différentes de l'analyse de textes par ordinateur. Ainsi, ALCESTE est un logiciel indépendant de SATO. Mais, au travers de l'interface du bureau de SATO, il est possible d'avoir un accès limité à l'analyse par ALCESTE. L'analyse de vos corpus dans ALCESTE est complémentaire à celle effectuée dans SATO.

« Retour au menu de la foire aux questions


6.4. Que dois-je faire si SATO ne fonctionne pas correctement, que dans certains cas, les pages sont incomplètes, que les listes de documents sont partielles et que je n'arrive pas toujours à soumettre mon corpus?

SATO ne semble pas compatible avec l'utilisation de programmes de cache, de proxy ou d'accélérateur tels Google Web Accelerator. En effet, pour accélérer l'affichage des pages web, ce type de programme charge à l'avance les pages. Dans l'état actuel, certains de ces programmes ne permettent pas de différencier les différents utilisateurs ou comptes d'un même site. SATO dépend de données qui sont générées dynamiquement pendant votre session. L'affichage des pages dépend de décisions à prendre qui peuvent varier d'une session à l'autre.

QUE FAIRE?

Vous pouvez interdire à ces programmes le chargement à l'avance des pages. Si vous continuez à avoir des problèmes, nous vous conseillons fortement de désactiver totalement votre programme d'accélérateur durant votre utilisation de SATO.

« Retour au menu de la foire aux questions