L’objectif que s’est fixé le Rifal dans son programme de formation 2000-2003 est d’aider ses membres du Sud qui le souhaitent à se doter de banques de données terminologiques et textuelles multilingues capables de répondre aux besoins locaux tout en communiquant entre elles grâce à l’Internet et l’utilisation avancée des NTICs. Aussi, les contenus des formations Rifal données depuis 2000 sont agencées de façon à atteindre cet objectif dans les délais prévus. C’est ainsi qu’en 2000, la formation a été centrée sur la récupération des données existantes, dans des formats non partageables, pour les convertir au format HTML, afin de les partager sur la Toile. En 2001, la modélisation des données terminologiques au travers d’un format d’échange concrétisée par une fiche commune préparait à l’implantation de banques de données terminologiques. La formation de 2002 (prévue pour février 2003) initiera au formatage des textes en vue d’une banque de données textuelles multilingues et de leur affichage sur la Toile. Enfin, en automne 2003, la formation portera sur le logiciel BTML (banque de données terminologiques multilingues), un outil unique de création et de gestion de banques de données terminologiques et textuelles multilingues, dont une version est en cours de développement en prenant en compte les besoins des membres du Rifal. Dans cette perspective, la visibilité des travaux sur la Toile est bien évidemment très importante puisque la formation vise aussi une meilleure maîtrise de l’Internet et des NTICs en général.
Le stockage des textes dans une banque textuelle nécessite en général l’utilisation d’un format spécifique, souvent fondé sur des balises insérées dans un texte, telles que définies initialement dans le langage SGML. La TEI (Text Encoding Initiative) a défini un tel jeu de balises pour le marquage des textes au format électronique. Une particularisation de la TEI est proposée dans le standard CES (Corpus Encoding Standard), qui a été récemment mis à jour (XCES) pour être conforme au standard XML (Extended Mark-up Language), proposé par le Consortium W3.
Dans ces conditions, nous proposons pour la formation Rifal 2002 (février 2003), dans la continuité des formations 2000-2001, une introduction à la réalisation de ressources textuelles annotées, tant en français que dans les langues partenaires. Un élément important des formations précédentes a été l’initiation à la représentation informatique des différents alphabets des langues partenaires, avec un accent sur le multilinguisme et le partage des textes, fondés sur l’utilisation du standard Unicode pour l’encodage des caractères. Il s’agit maintenant de formater les ressources textuelles qui ont été produites précédemment, grâce à un jeu de balises provenant du standard XCES, afin de préparer des ressources textuelles pour la banque de textes du RIFAL. Les fichiers balisés produits dans cette formation seront par la suite inclus dans la banque de textes, moyennant ou non des transformations ultérieures, et pourront aussi être affichés sur un site Internet par le biais de leur formatage HTML.
Le cours proposé introduira les participants à l’univers des langages de balises, parmi lesquels les anciens participants connaissent déjà HTML, principal langage de formatage des documents pour Internet. HTML ne permet toutefois qu’un balisage « graphique » des textes (en vue de l’affichage), alors que des jeux de balises plus riches, plus nuancés, permettent d’exprimer des informations plus détaillées sur la structure et l’origine des textes.
Dans cette formation, nous utiliserons une partie du jeu de balises défini par le groupe XCES (XML Corpus Encoding Standard), qui a le mérite d’être standardisé, et plus simple que le jeu de la TEI. L’objectif de la formation sera de produire des textes en français et dans les langues partenaires avec un balisage XCES vérifié (bien formé et valide). Techniquement, les participants devront assimiler certaines notions de base des langages de balises, exemplifiés ici par le standard XML, mais ces notions abstraites seront réduites au minimum. Des transparents expliquant ces notions figurent dans un fichier annexé au paquet pédagogique (apb-cours-xml.ppt). Pour commencer, les participants pourront s’inspirer des exemples fournis dans le paquet pédagogique, et surtout n’utiliser qu’un sous-ensemble restreint de balises extraites du standard XCES. Un manuel de balisage XCES, qui explique l’utilisation des principales balises XCES, est fourni avec le paquet pédagogique.[1]
Il faudra comprendre ce qu’est un document ayant un balisage bien formé (ses balises respectent les principes généraux de la syntaxe XML, tel l’emboîtement), et ce qu’est un document valide (ses balises respectent en plus les règles définies dans une DTD ou document type definition, qui fixe les noms permis et la hiérarchie possible). Deux DTD sont fournies dans le paquet pédagogique, l’une pour des documents XML de type <livre>…</livre> (fiche bibliographique), l’autre pour des documents XML/XCES (textes au format électronique avec entête et corps de texte). Le parser XML fourni (RXP) permet de vérifier la bonne formation, puis la validité. Des exemples de test sont fournis également.
Une façon plus simple de vérifier la bonne formation et la validité d’un texte XML consiste à utiliser le navigateur Netscape 7 ou Internet Explorer 5 (le premier, gratuit, sera fourni aux participants). Il faut alors simplement ouvrir le document XML dans le navigateur (par le menu, ou par glisser-déposer). Dans le cas de Netscape, un document bien formé, ou valide s’il est aussi muni d’une DTD, sera affiché comme du texte simple, dépourvu de ses balises. S’il y a une erreur, le navigateur la signalera en couleurs. Si une feuille de style est associée, Netscape l’appliquera et affichera le résultat. Internet Explorer fonctionne de manière semblable, si ce n’est que son affichage par défaut des documents XML est plus convivial et explicite que celui de Netscape.
Les textes balisés en XML n’ont pas de format de présentation intrinsèque. Pour les voir sous une forme quelconque, qui dépend en fait des objectifs des utilisateurs, il faut par exemple leur appliquer une feuille de style XSL (eXtended Stylesheet Language) – des méthodes plus complexes existent également, p.ex. la transformation à PDF. En utilisant l’outil de transformation SAXON et une feuille de style XSL adaptée au type de document à formater, les participants pourront transformer un texte XML, qui respecte une certaine DTD (« livre » ou XCES), en un texte HTML affichable dans un navigateur classique. L’intérêt des feuilles de style XSL est que l’on peut définir de nombreux affichages différents (un par feuille de style) pour un même texte en XML, selon la demande de celui qui consulte la banque de données.
C’est dans le format d’affichage HTML que l’on peut indiquer l’utilisation de polices de caractères. Les balises XML servant à marquer la structure des textes, on peut y définir l’encodage (ou jeu de caractères, en simplifiant), mais pas la police. Tous les caractères spéciaux du texte sont par défaut encodés directement en Unicode/UTF8, (sans préciser donc la police). Il faut donc se préoccuper particulièrement de l’encodage correct des caractères spéciaux de chaque langue en Unicode, en utilisant pour cela soit les entités numériques (de type ģ) soit directement les codes, par exemple à l’aide de Conv2UTF8 utilisé lors des formations précédentes.
Il faut enfin se poser la question : d’où viendront les documents utilisés par les participants ? La situation la plus probable observée montre qu’il s’agira de fichiers écrits en MS Word, souvent avec des polices locales. Ces fichiers doivent alors subir les transformations suivantes pour être convertis à XML :
1. Sauvegarde en HTML avec polices locales (<font face= "…"> Mot en langue locale </font>).
2. Application du logiciel CONV2UTF8 connu (muni d’une table de correspondances CST).
3. Transformation de HTML écrit en Unicode vers XML avec le jeu de balises XCES.
Le dernier point (3) est le plus délicat – le paquet en annexe fournit un logiciel nommé « tidy.exe » qui aide à nettoyer le code HTML produit par Word – et il doit se faire manuellement en partie. On choisira d’abord des textes courts, ayant une structure assez simple. Il faut à cette étape ajouter la déclaration XML (deux lignes seulement, prendre modèle sur les exemples fournis) puis surtout baliser le texte avec l’entête et les balises XCES. Il n’y a pas vraiment de possibilité pour automatiser cette étape, parce que les balises XCES sont plus riches (ou diverses) que les balises de formatage HTML, donc on ne peut savoir à l’avance comment on va encoder un texte donné en XCES. Il faut étudier les balises XCES, puis commencer par un balisage simple et clair du texte, et complexifier par la suite si possible.
Il est bien sûr possible de rédiger directement un fichier avec des balises XCES, dans un éditeur texte (tel ‘Notepad’) ou même dans MS Word (en sauvegardant le document saisi comme ‘texte’). Il est vivement conseillé de prendre exemple sur les fichiers fournis en annexe. Il faudra en particulier veiller à écrire les caractères spéciaux comme des entités avec le code hexadécimal, par exemple, en Unicode, ə pour le « schwa » (code hexa 0259, ou bien ə si on utilise le code décimal), ou encore par exemple ŋ pour le « eng » (n queue à droite vers l’intérieur, ou bien ŋ en décimal).
Les participants devront, à l’issue de la formation, être capables de :
- écrire des documents XML munis de balises de type XCES ;
- vérifier que ces documents soient bien formés et valides (à l’aide de Netscape, IE, ou RXP) ;
- appliquer un outil de transformation (p.ex. SAXON ou Netscape), avec une des feuilles de style données, pour produire des fichiers HTML ;
- gérer correctement les caractères spéciaux en les encodant selon le standard Unicode (UTF-8 pour XML), en utilisant les connaissances acquises dans les précédentes formations.
Nous fournissons un paquet pédagogique nommé RIFAL-XML.zip. Il faut d’abord décomprimer ce paquet dans un répertoire précis, à savoir "C:\RIFAL03\" (ce qui se fait automatiquement avec WinZip si on choisit de conserver les répertoires d’origine). Cela est impératif pour que les scripts fonctionnent correctement. Si l’on doit changer l’emplacement et/ou l’unité (p.ex. D: au lieu de C:), il faut alors modifier le chemin et l’unité dans les quatre fichiers de script fournis (« .bat », scripts batch MS-DOS), en les éditant avec un éditeur texte. Pour des raisons techniques, il semble qu’il ne soit pas possible d’utiliser des chemins relatifs dans les raccourcis DOS (.PIF).
Le fichier « LISEZMOI.txt » contient une description des fichiers du répertoire, et nous renvoyons les lecteurs à ce fichier. Nous donnerons ici des exemples d’opérations que l’on peut effectuer avec ce matériel pédagogique, sur deux catégories de textes. Trois programmes (exécutables) disponibles sur Internet sont inclus dans le paquet : l’analyseur syntaxique XML nommé RXP (pour vérifier la bonne formation et valider les documents), le moteur XSLT nommé SAXON (pour appliquer des feuilles de style XSL), et un programme de nettoyage des fichiers HTML produits pas Word (TIDY).
Une application simple, d’intérêt pédagogique, est proposée dans un premier temps. L’idée est d’encoder des fiches bibliographiques en XML, et les transformer en HTML pour visualisation. Quatre fichiers sont proposés (regarder leur contenu avec Notepad, p.ex.) :
livre-avec-dtd.xml = fiche accompagnée d’une référence à la DTD livre.dtd (fournie) ;
livre-sans-dtd.xml = même fiche sans la référence à la DTD ;
livre-mal-forme.xml = presque la même fiche, mais fichier mal formé et donc non valide ;
livre-bf-non-valide.xml = fichier bien formé mais non valide.
Pour chaque fichier, on peut (en utilisant le « drag and drop ») :
- tester la bonne formation, en déplaçant son icône vers l’icône de appliquer-rxp(.bat)
- tester la validité en déplaçant l’icône du fichier sur l’icône de appliquer-rxp-VV(.bat)
- afficher/vérifier les fichiers dans Netscape ou Internet Explorer.
Dans les deux premiers cas, si le fichier est bien formé ou valide (selon ce que l’on souhaite tester), la fenêtre MS-DOS qui apparaît affichera tout le texte du fichier : on doit donc seulement vérifier que le dernier élément prévu apparaît bien à la fin. Sinon, le programme RXP s’arrête au niveau de la première erreur, et il faudra la corriger, puis recommencer la vérification.
Pour les fichiers bien formés, on peut aussi appliquer la feuille de style fournie (« livre-vers-html.xsl ») en déplaçant l’icône du fichier sur l’icône de appliquer-saxon-livre(.bat). Si tout se passe bien, un nouveau fichier HTML apparaît (rafraîchir dans la fenêtre pour être sûr), et on peut ensuite visualiser ce fichier dans un navigateur. Si une erreur s’est produite, on voit un message d’erreur dans la fenêtre MS-DOS.
Même principe que ci-dessus, mais cette fois-ci on a des exemples conformes à XCES. Sont fournies la DTD pour les documents XCES « xcesDoc.dtd » (plus un fichier auxiliaire « xheader.elt »), une feuille de style simple pour convertir un document XCES à HTML, ainsi que trois exemples :
- xces-multext-joc-body.xml = document du corpus MULTEXT, extrait du journal officiel de la Communauté Européenne, contient seulement le « corps », sans entête ;
- xces-multext-1984-header.xml = document du corpus MULTEXT, contient l’entête du roman « 1984 » de George Orwell dans le format XCES ;
- xces-exemple-hugo.xml = court exemple encodé par le soussigné, contient entête et corps du texte (poème).
Pour ces trois fichiers, on peut vérifier la bonne formation, la validité, et appliquer la feuille de style « xces-vers-html.xsl », en procédant comme indiqué plus haut (« drag and drop » sur l’icône de appliquer-saxon-xces(.bat)).
Ces fichiers XCES doivent servir de modèle pour les documents que les participants doivent formater (la documentation XCES fournie doit aussi être utilisée). En particulier, le fichier « xces-exemple-hugo.xml » montre comment déclarer au début du document des noms d’entités correspondant aux caractères spéciaux les plus usités, si on doit les saisir à la main, pour éviter d’utiliser les entités numériques).
Nous fournissons également, dans le fichier « xces/xces-xsl-0_2.zip », une jeu complet de feuilles de style XCES (conçues par les auteurs de XCES, elles nécessitent le moteur XT pour XSL) ainsi que leur documentation, pour les participants les plus motivés et expérimentés. La documentation extraite du site XCES se trouve dans le répertoire « xces ». Tous les liens HTML ne fonctionnent pas sur cette copie (cf. http://www.cs.vassar.edu/CES/ pour la version complète). Nous donnons également un jeu de transparents sur XML, pour servir de support pédagogique à l’introduction aux langages de balises. De même, une copie du navigateur Netscape 7, en libre distribution, est fournie sur le CD-ROM des formateurs.
Afin de tester les feuilles de style originales fournies par XCES, nous fournissons un paquet pédagogique plus avancé, qui permet d’utiliser le moteur XSLT nommé XT, réalisé par James Clark. Ce paquet doit être installé dans le répertoire "C:\Rifal03b", ou bien les chemins dans le fichier .bat doivent être modifiés. Un fichier "LISEZMOI.txt" détaille le contenu du paquet. Brièvement, le script ‘appliquer-xt-xces.bat’ transforme un fichier XML en un fichier XSL en utilisant la feuille de style "xsl\html\cesDoc.xsl" (ainsi que des feuilles auxiliaires) avec le moteur XT. Pour l’appliquer cet outil, déplacer l'icône du fichier XML que l'on veut transformer sur ce raccourci. Vérifier dans le fenêtre qui apparaît que tout s'est bien passé, puis cliquer sur le "Raccourci vers le resultat". Pour sauvegarder les résultats (stockés provisoirement dans ‘resultats-html’) les recopier ailleurs. Des exemples d’application balisés XCES sont également fournis.
Les sessions de formations sont organisées par les institutions d’accueil dans les pays du Sud membres du Rifal, dont les noms suivent :
|
Haïti |
Faculté de Linguistique appliquée |
Niger |
INDRAP |
|
Mali |
Académie des Langues |
Maroc |
IERA |
|
Rép. Dém. du Congo |
CELTA |
Sénégal et Mauritanie |
CLAD |
|
Madagascar |
CLAM |
Centrafrique |
ILA |
Le Sénégal et la Mauritanie organisent ensemble une session unique au Sénégal. A part ce cas particulier, toutes les sessions ont lieu dans la capitale des pays ci-dessus cités, dans les institutions d’accueil. Le Rifal apporte son soutien à l’organisation des sessions en prenant en charge les frais de voyage et de séjour d’un formateur, et en assurant le contenu pédagogique. Les dates exactes de ces sessions seront précisées ultérieurement. Toutefois, sauf cas de force majeure, elles devront toutes avoir lieu entre le 20 janvier et le 28 février.
Les sessions seront encadrées parles formateurs suivants :
|
Chantal Enguehard |
Bamako et Niamey |
|
<Formateurs OSIL> |
Rabat |
|
Christian Chanard |
Port-au-Prince |
|
Edema Atibakwa |
Kinshasa |
|
Marc Van Campenhoudt |
Dakar |
|
Marcel Diki-Kidiri |
Antananarivo et Bangui |
Le contenu pédagogique de cette formation Rifal 2002 a été préparé par Andrei Popescu-Belis (OSIL / ISSCO, Genève), aidé par Marc Van Campenhoudt (OWIL / TERMISTI, Bruxelles) et Marcel Diki-Kidiri (LLACAN, Villejuif), responsable du Groupe de Travail Formation du Rifal. Pour toute information concernant les sessions de formation, veuillez nous contacter à l’adresse suivante :
Marcel Diki-Kidiri
Responsable du GTF - Rifal
LLACAN (CNRS)
7 rue Guy Môquet
94801 Villejuif Cedex
France
Courriel : mdkidiri@free.fr
Dernière mise à jour, le 24 janvier 2003.