AGENCE INTERGOUVERNEMENTALE DE LA FRANCOPHONIE
(ACCT)

RESEAU INTERNATIONAL FRANCOPHONE
D’AMENAGEMENT LINGUISTIQUE
(RIFAL)

FORMATION 2000

Traitement informatique des langues partenaires pour la Toile :
Le langage HTML et la récupération des documents.

Contexte

Conformément à la mission qui lui a été confiée par l’Agence internationale de la Francophonie (ACCT), le Réseau international francophone d’Aménagement linguistique (Rifal)  a inscrit dans ses priorités “ la promotion et le soutien au traitement informatique du français et des langues partenaires en favorisant l’utilisation des nouvelles technologies de l’information et de la communication (NTIC) et des Inforoutes ”, et, dans son programme d’action pour le biennum 2000-2001, le soutien à la réalisation de banques de données terminologiques multilingues par ses membres du Sud. Ceux-ci sont invités, dans un premier temps, à créer des sites institutionnels propres, accessibles notamment depuis le site du Rifal, et à y afficher tout contenu et français et en langues partenaires susceptibles d’intéresser les autres. Dans un deuxième temps, ils sont invités à créer des banques de terminologies mises en réseau afin de faciliter les échanges et la consultation.

En cohérence avec ces objectifs-là, le Rifal a décidé que son action de formation pour ce même biennum portera, d’une part,  sur la récupération des documents dans un format HTML afin de les rendre consultables sur la Toile, et d’autre part,  sur la réalisation d’une banque de données en utilisant un même format de fichiers et une même plate-forme standardisée. Les sessions de formation seront organisées localement par chaque membre demandeur avec l’assistance d’un intervenant envoyé par le Rifal.  De cette façon, tous les membres demandeurs recevront la même formation aux mêmes outils pour atteindre les mêmes objectifs.

Définition du contenu de la formation 2000

a) Etat de la situation.:

Les modules du Sud  utilisent tous le traitement de texte Microsoft Word. Il est donc possible de se servir de ce logiciel comme pivot pour récupérer des documents d’origines diverses, afin de les convertir au format HTML. Les dernières versions de ce logiciel (version 7 pour PC et version 8 pour Mac) peuvent enregistrer des documents directement aau format HTML. Les versions antérieures peuvent en faire autant grâce à un applet nommé Internet Assistant, téléchargeable gratuitement depuis le site de Microsoft.

La plupart des documents structurés produits par les modules du Sud sont des lexiques spécialisés réalisés avec Shoebox, version 3.0. avec des étiquettes propres. Or la version 4.03 de Shoebox peut récupérer les fichiers de la version 3.0 ; les convertir au format HTML et les afficher dans un navigateur (Netscape, IE).  Par ailleurs, même Shoebox 3.0. peut convertir ses propres fichiers au format RTF récupérables sous Word. Ce qui nous ramène au paragraphe précédent.

La vraie question à résoudre est celle de l’affichage des caractères spéciaux des langues partenaires sur la Toile. Actuellement, les membres du Sud concernés utilisent les logiciels de la SIL (SIL Encore Font, Typecaster, Keyman) pour créer leurs propres  jpolices de caractères, au format ISO Latin-1, et les claviers virtuels correspondants.. Pour que ces polices soient affichable sur la Toile, il faudrait les convertir au format UTF-8 (le standard Unicode). Pour résoudre ceproblème, Christian Chanard, ingénieur informaticien au LLACAN[1] a développé l’utilitaire CONV2UTF8 que nous allons utiliser lors de cette formation. Une fois les conversions faites, il faut encore disposer d’au moins une police Unicode qui puisse restituer le dessin des caractères. Nous utiliserons à cet effet la police Lucida Sans Unicode.

b) Contenu de la formation en 2000.

Objectif

A la fin de la session de formation, les stagiaires doivent savoir porter sur la Toile un échantillon satisfaisant de leurs productions (lexique spécialisé et textes ) en se servant des outils et du protocole qu’ils auront appris. Ils doivent également savoir récupérer les documents que d’autres membres ont mis à disposition sur la Toile, afin de s’assurer qu’ils peuvent bien partager des données en langues partenanries via l’Internet.

Contenu pédagogique

A)     Préparation à la conversion des caractères.

Les polices de caractères spéciaux créées avec les logiciels de la SIL le sont à partir dun fichier appelé “ Table de spécification de caractères ” (CST). Pour chacune des polices de caractères spéciaux utilisées dans les documents du Membre accueillant la formation, il faudra s’assurer que les fichiers CST correspondants existent bien, soit recréer un tel fichier à partir de la police de caractère. Il est possible d’utiliser SIL ENCORE FONT pour cela. Normalement, tous les Menbres concernées par la présente formation ont déjà ce logiciel.

B)     Utilisation de CONV2UTF8

Après avoir sélectionné les échantillons de textes et de lexiques  pour lles exercices, installer et utiliser CONV2UTF8 conformément à la documentation fournie. Le fichier produit par l’utilitaire CONV2UTF8 est un fichier HTML où les polices ont été encodées au format standard UTF8 (Unicode). Il faut utiliser un navigateur pour voir le résultat.

C)    Visualisation des résultats

Commencer par installer la police “ Lucida Sans Unicode ”. Si l’ordinateur client n’a pas les versions récentes de Netscape (4 et plus) ou de Internet Explorer (5 et plus), installer au moins un de ces navigateurs dans la version requise.et le configurer pour qu’il utilise la police Lucida Sans Unicode  en encodage Unicode. (voir  documentation jde la pochette pédagogique). Enfin, lancr le navigateur et lui donner l’adresse du fichier produit par CONV2UTF8 pour l’afficher.

D)    Portage des fichiers résultats sur la Toile.

Pour les besoins de la formation, un site expérimental de partage de données, réservé aux membres du Rifal, a été créé dans la rubrique “ Web Communities ” de Microsoft Network (MSN). Pour y accéder, il suffit de s’y inscrire très simplemnt, en suivant la procédure décrite dans la documentation fournie avec la pochette pédagogique. Une fois dans l’espace du site, cliquez sur “ Documents ” dans le cadre de gauche, pour voir afficher tous les documents que les autres membres ont mis à la disposition de tous. Un bouton “ Ajouter un fichier ” permet d’ajouter ses propres fichiers. Le téléchargement se fait alors par le navigateur..

Même si le Membre hôte dispose de son propre site, il est recommandé d’afficher aussi ses documents sur ce site expérimental du Rifal-Formation, afin de voir comment fonctionne le partage des fichiers et tous les avantages que l’on peut en attendre. Si le Mendre hôte a déjà créé son propre site, les fichiers peuvent y être téléportés au moyen de l’utilitaire FTP fourni ou de tout autre utilitaire qu’il utilise habituellement utilisé pour entretenir son site.Il faudrait alors, au minimum, établir un lien entre ce site et celui de Rifal-Formation.

E)     Consultation et récupération des documents affichés sur la Toile

Les documents comportant des textes en langues partenaires et qui ont été affichés sur la Toile peuvent être visualisés dans  la police Lucida Sans Unicode et donc consultés avec les navigateurs Netscape et Internet Explorer comme expliqué plus haut dans la section (C). Ils peuvent être récupérés, sauvegardés et imprimés. Mais dans la mesure où la plupart des logiciels en usage ne supportent pas encore l le format standard UTF-8 (Unicode), notamment les versions WORD antérieures à WORD 2000, il ne sera pas possible de récupérr ces fichiers par exemple dans Word 97 pour les traiter autrement. Il faudrait donc pouvoir déposer sur le site une version des mêmes fichiers incorporant les polices ISO Latin-1 supportés par WORD 97 afin qu’ils soient récupérables  avec un utilitaire FTP de transfert de fichier.et réutilisables au-delà de la simple consultation.

Pochette pédagogique

Une pochette pédagogique sur support électronique sera remise à chacun des intervenant envoyé en mission de formation ; Elle contient les outils suivants :

1)       L’utilitaire CONV2UTF8

2)       La police LUCIDA SANS UNICODE

3)       L’e navigateur NETSCAPE version 4.7

4)       Le navigateur INTERNET EXPLORER version 5.x

5)       Un utilitaire FTP de transfert de fichiers

6)       IL’extension  INTERNET ASSISTANT (pour Word 6.02a sur PC et Wor 7 sur Mac).

7)       Exemples de polices de langues africaines avec leurs CST

8)       Exemples de textes et de lexiques écrites avec ces polices

9)       Documentaires sur l’utilitaire CONV2UTF8

10)    Fichier d’aide sur l’ensemble du cours et des procédures.

Organisation des opérations de formation en 2000

a) Conditions générales

La formation est destinée prioritairement aux Membres du Rifal du Sud. qui en ont fait la demande explicite au cours de l’Assemblée Générale du Rifal tenue à Paris les 20 et 21 juin  2000, et/ou  ont accepté d’organsiser une session chez eux.

L’organisation matérielle et administrative de la session de formation est entièrement à la charge du Membre demandeur. Celui-ci choisit les stagiaires et s’assure de leur assiduité à lau stage ainsi que de toute la logistique relative au bon déroulement du stage.

Le Rifal appuie la session de gormation par l’envoi d’un intervenant dont il prend à sa charge tous les frais  (voyage et séjour). L’intervenant est chargé de transmettre intégralement le contenu pédagogique de le la formation et d’apporter aux stagiaires toute l’assistance technique nécessaire permettant d’atteindre les objectifs de la formation tels que préconisés par le Rifal.

b) Lieux, dates et intervenants :

Les sessions de formation se tiendront aux lieux et aux dates ci-après, avec les intervenants dont les noms sont iindiqués dans la colonne de droite..

Afrique de l’Ouest

              Dakar                                       du 11 au 16 décembre 2000                Marc Van Campenhoudt (CFG)

             Niamey                                     du 18 au 23 décembre 2000                Florin (ISSCO, Suisse)

Centrafrique

             Bangui                                      du 4 au  9 décembre 2000                   Marcel Diki-Kidiri (LLACAN)

Haïti

             Port-au-Prince                         (date à fixer en décembre)                  Christian Chanard (LLACAN)

Madagascar

             Antananarivo                          du 4 au 10 novembre 2000                 Marcel Diki-Kidiri (LLACAN)

République Démocratique du Congo

             Kinshasa                                  (date à fixer en décembre)                  Edema Atibakwa (CELTA)

 

Les dates des sessions de formation sont fixées en accord avec les membres demandeurs. Nous sommes encore en négociation pour fixer les deux dernières dates qui restent..

Pour nous contacte

Pour toute information complémentaire, veuillez contacter le responsable du Groupe de Travail pour la Formation,à l’adresse suivante :r

Marcel Diki-Kidiri

Responsable du Groupe de 

Travail Formation (GTF) du Rifal .

LLACAN (CNRS)

7 rue Guy Môquet

94801 Villejuif Cedex

Courriel : mdkidiri@free.fr

Télc. (33) (0)549 18 22 46

Télec. (33)(0) 549 54 37 09

 



[1] Langage Langue et Culture d’Afrique noire, Unité Mixte de Recherche n° 7594 (CNRS, Paris VII, Inalco).