Agence Intergouvernementale de la Francophonie

Réseau international francophone d’Aménagement linguistique

Formation RIFAL 2003

__________

Récupération, conversion et mise en forme de documents

 Constitution d’une base de textes sur Toile

__________

A. Mise en contexte

Dans son programme de formation, le Réseau International francophone d’Aménagement linguistique entend assister ceux de ses membres du Sud qui souhaitent organiser chez eux des sessions de formation spécialisée dans les domaines de compétences qui sont les siens, à savoir, la terminologie, l’aménagement linguistique, le traitement informatique des langues, les technologies de l’information et de la communication, l’ingénierie linguistique, la veille technologique. Répondant aux besoins exprimés unanimement par ses membres, le Rifal a établi un programme de formation 2000-2003 qui vise, à terme, à installer des banques de données terminologiques et textuelles dans les pays ayant souscrit au programme de formation. Ces banques de données devront être interconnectées et consultables via l’Internet. Pour gérer chacune de ces banques de données, le Rifal a adopté le BTML, un gestionnaire de bases de données multilingue, multimédia et multiplateforme, en développement à l’Office québécois de la langue française. L’intérêt d’un tel choix réside dans le fait que les besoins spécifiques des langues africaines ont été répertoriés et pris en compte directement dès la conception même du logiciel dont la livraison est prévue pour 2004. En conséquence, les sessions de formation qui ont été faites depuis 2000 visaient à donner aux stagiaires une compétence de plus en plus grande dans la maîtrise des documents textuels volumineux et leur échange via l’Internet :

 

2000 – Récupération des données préexistants et leur  affichage sur la Toile

2001 – Modélisation des données : un format d’échange des données terminologiques.

2002/3 – La structuration des données textuelles avec le langage XML.

2003 – Récupération, conversion et mise en forme des documents.

 

Comme on peut le voir, le thème de cette année s’inscrit dans la continuité des thèmes traités lors des sessions de formation antérieures. Il vise à consolider les acquis, en préparant les équipes de stagiaires à une maîtrise totale des manipulations que l’on peut faire avec des documents structurés, et ce, en utilisant les outils les plus courants, voire gratuits disponibles sur l’Internet, et donc accessibles à tous.

Enfin, en raison des graves événements politico-militaires survenus cette année en République Centrafricaine, la session 2002/3 n’a pas pu s’y tenir. Maintenant que le calme est revenu et que les conditions de sécurité et de retour à la vie normale sont largement bien remplies, il est possible d’organiser avec l’Institut de Linguistique Appliquée de Bangui une session plus longue ou plus intense (selon l’organisation du temps) afin de couvrir aussi largement que possible le contenu des sessions 2002/3 et 2003. Cette charge de travail accrue justifie bien l’envoi exceptionnel de deux formateurs du Rifal à Bangui.

B. Programme cadre des sessions 2003

a) La mise en forme des documents

Les styles

1.       La définition des styles (exemples dans Word, Shoebox, ou tout autre logiciel)

2.       Styles de caractère

3.       Style de paragraphe

4.       La hiérarchie des titres et leurs styles

Les feuilles de style

Elles permettent de structurer aisément les documents que l’on crée, même avec un traitement de texte comme Word ou Open Office. Il conviendrait donc de consolider les connaissances suivantes :

1.       Comment créer des feuilles de styles sous Word

2.       Comment les utiliser pour créer des documents structurés

3.       Comment les utiliser dans des filtres pour une extraction sélective des données ou une correction systématique.

Le balisage des documents

1.       Notions de balises : de l’étiquette des styles aux balises ; balises et attributs.. Définition de types de document (DTD) Syntaxe des balises :  Comprendre ce qu’est un texte ayant un balisage bien formé (les balises respectent les principes généraux de la syntaxe, tel l’emboîtement), et ce qu’est un texte valide (les balises respectent en plus les règles définies dans une DTD qui fixe les noms permis et la hiérarchie possible). Avec Netscape 7 on peut lire les messages d’erreur clairement notifiés lorsqu’un balisage est mal formé ou invalide. Étudier aussi quelques exemples de DTD pour apprendre à s’en servir. Deux exemples seront fournis sur le CD de la formation.

2.       Les balises HTML pour l’affichage des données dans une page sur la Toile (les navigateurs savent interpréter ces balises pour afficher des pages sur Toile). Étudier ici une sélection de balises HTML qui commandent différents types d’affichage pour un même texte : titres, paragraphes, tableaux, listes, polices de caractères, couleurs, espacements, alignements.

3.       Les balises XML pour décrire la structure des données et leur contenu. (Ces balises ne sont pas faites pour être interprétés par les navigateurs, mais permettent une plus grande souplesse dans l’exploitation des données). Étudier ici les balises XML retenus pour la description de différentes parties de textes : titres, paragraphes, tableaux, résumé, exemples, poème, illustration, etc.

Le codage des caractères spéciaux

Pour cette section, on peut se référer (et conseiller vivement la lecture de) l’article d’Andrei Popescu-Belis et Christian Chanard « Encodage informatique multilingue : application au contexte du Niger » paru dans Les Cahiers du Rifal n° 22. (On trouvera une copie de cet article en format PDF sur le CD de la formation).

1.       Les différents types de codage standard : binaire, décimal, hexadécimal

2.       Les jeux de caractères ISO-latin-n, Unicode, et UTF-8.

3.       La représentation des caractères : lettres, entités numériques, entités analogiques.

b) La conversion des documents d’un format à un autre

La récupération et le transfert des documents s’accompagnent très souvent de changements de formats. Il faut alors savoir effectuer des conversions entre différents formats quand celles-ci ne sont pas automatiques.

1.       La plupart des traitements de textes permettent d’exporter les fichiers depuis leur format propre vers des formats courants comme RTF, TXT, et HTML. Ils savent aussi importer depuis ces formats vers leur format propre. Effectuer ces manipulations.

2.       Dans certains cas, la conversion des fichiers nécessite un nettoyage plus ou moins poussé du fichier source. Par exemple, le nettoyage des fichiers HTML générés par Word. Pour cela, on peut utiliser l’utilitaire gratuit HTML Filter de Microsoft. La conversion des polices de caractères avec CONV2UTF8 s’accompagne aussi d’un nettoyage du fichier source HTM.

3.       Le logiciel Shoebox produit des documents structurés au format texte, mais avec un système de balisage propre à la SIL appelé « Format Standard ». Pour pouvoir imprimer sous forme de livres les bases de données générées par Shoebox, la SIL a prévu d’utiliser un utilitaire SF-Converter afin de convertir les fichiers Shoebox du « Format Standard » vers le format RTF. Ce qui permet de les récupérer sous un traitement de texte comme Word et d’en faire une mise en page adéquate. On peut réviser cette manipulation pour s’assurer qu’elle est bien maîtrisée.

4.       A partir du moment où on sait exactement ce qu’il faut changer systématiquement dans un document, il est possible et souvent facile de créer une table de changement systématique avec l’utilitaire CC (Consistent Change). Alors que certaines tables de changements systématiques sont très simples à créer, en particulier quand elles sont jetables, d’autres relèvent d’une véritable programmation d’une feuille de style complexe. Une maîtrise avancée de la syntaxe de CC devient alors indispensable. Comme exercice, on peut créer une table CC pour transformer un fichier Shoebox en un fichier XML.

5.       Enfin, on dispose désormais d’un utilitaire gratuit Ghost Script pour créer des documents au format PDF dont on connaît tous les avantages quant à la préservation de l’intégrité du document. Pour ce faire, créer son document avec un traitement de texte (Word ou Open Office, par exemple). Sélectionner un pilote d’imprimante Post Script et la fonction « Imprimer dans un fichier ». Lancer l’impression. Utiliser Ghost Script pour transformer le fichier produit en un fichier PDF. Pour lire le fichier PDF, on aura besoin de l’utilitaire gratuit Acrobat Reader.

 c) La récupération de documents et la constitution d’une base commune de textes sur Toile

La récupération des documents sur la Toile

On trouve sur la Toile de nombreux textes en langues africaines, en créoles et en malgache. Là où la connexion à l’Internet est possible, il conviendrait de procéder aux opérations suivantes :

1.       Récupérer les textes sur la Toile dans des fichiers HTML.

2.       Faire une analyse des orthographes utilisées dans ces textes et en tirer les conséquences pour la langue utilisée.

3.       Récupérer les textes dans un traitement de texte (Word, Open Office).

4.       Établir la fréquence de chaque mot et le nombre des mots différents.

5.       Créer avec la liste des mots établie un correcteur orthographique pour cette langue (et si besoin est, pour chacune des orthographes trouvées sur la toile pour cette langue).

La récupération des documents avec format d’échange

Les documents structurés selon des modèles standard connus et en particulier conformes à des formats d’échange communs sont évidemment bien plus faciles à récupérer. C’est pourquoi, dans la perspective d’échanger les données terminologiques de nos banques de données, nous avons mis au point un format d’échange appelé « fiche commune ». Les institutions qui ont eu la formation 2001 sont censées utiliser cette fiche commune pour modéliser leur travail terminologique. Où en sont-elles ? On pourra examiner les lexiques spécialisés réalisés par les institutions pour voir comment les mettre dans le format d’échange de la fiche commune. Il faudra très probablement quelques champs obligatoires comme la définition en français et dans les langues partenaires ou tout au moins une sélection d’un petit nombre de champs à remplir pour que les exercices de consultation croisée soit significatifs.

La constitution d’une base commune de textes sur Toile

De même, le recours au standard XCES pour décrire les documents textuels facilite l’exploitation et l’échange de ces derniers quand on sait tirer partie des langages XML, HTML et XSLT pour les feuilles de style. C’est pourquoi nous avons introduit à ces langages et à leurs applications dans la description des documents structurés lors des sessions de 2002/3. Les institutions ayant participé à ces sessions sont censées compiler des textes dans ces standards. Qu’en reste-t-il ? La section (a) « mise en forme des documents ci-dessus devrait permettre une consolidation des connaissances et la compilation de textes bien balisés (c’est-à-dire, ayant un balisage bien formé et valide) dans un format commun d’échange (fourni sur le CD de la formation). Ces textes, en langues partenaires, accompagnés si possible de leur traduction française (facultatif) devront être collectés par les formateurs pour être envoyés sur le site du GTF-RIFAL. Là où la connexion Internet est bonne et fiable, on peut localement faire l’exercice de télécharger directement ces textes sur le site, ou de les envoyer en fichier attaché à un courriel adressé au webmestre du site du GTF-FIFAL, Andrei Popescu-Belis. On en profitera pour revoir quelques notions fondamentales d la pratique d’Internet telles que : les URLS, la navigation, la structure d’un site, la mise à jour d’un site, les moteurs de recherche, les pare-feu et les dangers des virus (et autres nuisances) transmis par Internet.

C. Programme spécifique.

Un programme spécifique est prévu, à titre exceptionnel,  pour répondre à la demande particulière du Maroc : La formation à SQL 2000 sous Windows 2000 arabisé pour le Maroc. Cette formation est soutenu par le Rifal si elle a lieu au Maroc. L’I.E.R.A. devra proposer un formateur résidant au Maroc où les compétences pour une telle prestation ne manquent pas, organiser une semaine de formation avec un contenu détaillé dont copie sera transmise au GTF. En outre, le formateur devra rédiger un rapport à l’issu de la formation qu’il adressera au responsable du GTF. A ces conditions, le Rifal apportera à l’I.E.R.A. un soutien financier équivalent aux frais de séjour habituel d’un formateur envoyé par le Rifal.

D. Organisation des sessions 2003

Les sessions de formations seront organisées dans les pays membres par leurs institutions d’accueil ci-dessous identifiées. Les dates proposées ne sont que des suggestions. Elles ne seront fixées qu’avec l’accord des formateurs et des institutions d’accueil. La durée de chaque session est, en principe,  limitée à six jours ouvrables, généralement, du lundi au samedi inclus, sauf contrainte de voyage pour le formateur

1        Programme cadre

Haïti

Faculté de Linguistique appliquée de l’Université d’État d’Haïti (FLA/UEH)

Décembre 2003

Christian Chanard

Madagascar

Centre de Linguistique de l’Académie malgache (CLAM)

29 nov. -6 décembre 2003

Marcel Diki-Kidiri

Mali

CNR-ENF

Décembre 2003

Chantal Enguehard

Mauritanie

Centre de Linguistique appliquée de Dakar (CLAD / Sénégal)

Nota : Les Mauritaniens participeront à la session de Dakar

Décembre

Marc Van Campenhoudt

Niger

Institut de Documentation, de Recherches et d’Action pédagogique (INDRAP)

Décembre 2003

Chantal Enguehard

République Centrafricaine

Institut de Linguistique appliquée (ILA)

8-21décembre 2003

Oliva Ramavonirina

Marcel Diki-Kidiri

République démocratique du Congo

Centre d’Études linguistiques théoriques et appliquées (CELTA)

8-13 décembre 2003

Edema Atibakwa

Sénégal

 Centre de Linguistique appliquée de Dakar (CLAD)

Décembre 2003

Marc Van Campenhoudt

Roumanie

(sous réserve de confirmation)

Décembre 2003

Andrei Popescu-Belis

2        Programmes particuliers

Maroc

Institut d’Études et de Recherches pour l’Arabisation (IERA)

Nota : L’IERA proposera un formateur marocain.

Novembre ou Décembre

Encadreur marocain

 

E. Observations.

1. Utilisation du programme cadre

Le programme cadre est, certes très chargé, mais il constitue un ensemble d’unités d’apprentissage dont certains sont simplement à réviser et d’autres à approfondir. Il appartient aux formateurs de pondérer le temps consacré à chacun de ces éléments d’apprentissage, en fonction du niveau général des stagiaires et de leurs besoins. Ce qui est important c’est que chaque groupe local de stagiaires  ait eu  l’opportunité de vérifier qu’il maîtrise bien toutes ces notions, de façon performante. Si ce résultat est obtenu, alors, on peut dire que l’objectif de la présente formation 2003 sera atteint, à savoir, apprêter les équipes de stagiaires à exploiter au mieux les banques de données terminologiques et textuelles avec BTML dès l’année prochaine.

2. Question de matériels

a)      Paquet pédagogique

Comme par le passé, un paquet pédagogique sera apprêté comprenant un ou deux CD avec le programme cadre, des utilitaires, des exercices, des exemples, etc. Il a été également proposé de compiler sur un CD une sélection de sites aspirés intéressants dans lesquels les stagiaires peuvent apprendre à naviguer même là où l’accès à l’Internet est aléatoire.

b)      Équipement informatique

Les demandes d’aide en équipement informatique nous sont parvenues de Haïti, du Sénégal, de Centrafrique et de la République Démocratique du Congo, soit à travers les recommandations des derniers rapports de formation 2002/3, soit directement par les responsables d’institution. Il ressort de ces demande les besoins suivants :

-          Pour Haïti, un ordinateur à acheter sur place

-          Pour le Sénégal, un ordinateur à prévoir à court terme

-          Pour la Centrafrique, un accès Internet haut débit avec réseau local (installation, maintenance et matériel proposés par la société centrafricaine ADMN, avec laquelle l’ILA est en relation de travail permanent)

-          Pour la République Démocratique du Congo, un ordinateur si possible à acheté sur place.

Les autres institutions d’accueil de nos formations ne sont pas sans besoin en équipement informatique, même si elles ne les ont pas exprimés. L’installation du BTML dans toutes les institutions nécessitera probablement au moins un ordinateur récent dédié aux banques de données. En attendant, nous pouvons déjà commencer par satisfaire les besoins exprimés ci-dessus dès cette année. Le Rifal a fait une demande spéciale auprès de l’OIF afin qu’il accompagne en équipement informatique l’installation du BTML dans les pays membres au Sud. Si cette demande est acceptée, nous pourrons  compléter l’année prochaine l’effort commencée cette année.

 

La dernière mise à jour de la présente proposition de formation 2003 a été réalisée le 19 septembre 2003 par Marcel Diki-Kidiri, responsable du GTF, avec la contribution de tous les membres du GTF (Mme Sylvie Wallez, Mme Oliva Ramavonirina, Mlle Chantal Enguehard, M. Andrei Popescu-Belis, M. Christian Chanard, M. Edema Atibakwa, M. Marcel Grangier) et après consultation des responsables d’institution suivants ; Mme Juliette Ratsimandrava, M. Pierre Vernet, M. François Lim, M. Ntita Nyembwe, M. Chérif Mbodj, M. Fassi Fehri.

 

Marcel Diki-Kidiri

LLACAN (CNRS)

7 rue Guy Môquet

94801 Villejuif Cedex 9

mdkidiri@free.fr

Téléphone: xx(33 / 0) 5 49 18 22 46