Textes produits pendant les formations GTF-RIFAL à l'INDRAP, NiameySynthèse des stages - Corpus de textes nigériens |
|
Les langues traitées et leur encodageLes textes présentés ici appartiennent aux cinq plus importantes langues nationales du Niger (la langue officielle étant le français), parlées au total par plus de 90% de la population du pays. Un aperçu des langues et dialectes parlés au Niger figure sur le site de SIL International. Les cinq langues traitées au cours de la formation, et parlées par les participants, sont énumérées ci-dessous ; elles appartiennent toutes à des familles linguistiques distinctes. L'orthographe des noms suit l'usage nigérien, le code à trois lettres étant celui de la SIL.
Les textes disponibles à l'INDRAP utilisent plusieurs polices de caractères (en général sous le système d'exploitation Microsoft Windows 95®). En effet, la transcription des langues citées fait appel à certains caractères spéciaux ne faisant pas partie du jeu de 256 caractères ISO-8859-n (où n vaut de 1 à 7). Dans la mesure toutefois où la plupart des caractères utilisés sont latins (p.ex. ISO-latin-1), la solution adoptée à l'INDRAP consiste à personnaliser ce jeu de caractères en redéfinissant certaines entrées avec des caractères phonétiques propres à chaque langue. Cette opération a été exécutée lors de précédents stages, ou par des visiteurs, en général à l'aide du logiciel SIL Encore Fonts, qui dispose d'une base de caractères classés selon les codes de la SIL. Le principal problème que pose cette approche (par ailleurs assez adaptée au traitement de texte utilisé) est que le partage de ces textes est impossible si on ne dispose pas de la police particulière qui a servi à créer chaque texte. Or, ces polices personnalisées ont une portée très locale - l'INDRAP seul utilise quatre polices différentes (et incompatibles). On comprend donc bien l'objectif de la formation 2000 : mettre en place un protocole de conversion de ces ressources à un format partageable, ici le format HTML avec l'encodage Unicode.
Nous donnons ici, par souci de complétude, les fichiers des polices utilisées à l'INDRAP (TrueType) : Indrap98, Nigerienne, Langues Niger SIL Doulos, ADD ; ajoutons aussi la police LucidaSansUnicode (© Bigelow and Holmes 1993). Pour en savoir plus sur cette question, et obtenir d'autres fichiers de polices, on pourra se référer au rapport technique, au site Unicode, à la page de SIL International sur les polices ainsi qu'à une autre page sur les polices Unicode existantes ; les plus étendues sont "Bistream Cyberbit" et "Microsoft Arial Unicode". Pour tester l'affichage d'un encodage ou d'une police donnés, vous pouvez utiliser les pages de codes du répertoire unicode local.
La conversion à l'encodage Unicode a été réalisée grâce au logiciel de conversion CONV2UTF8 développé au LLACAN (UMR 7594 du CNRS, à Villejuif, France) par Christian Chanard, comme décrit dans le programme de la formation. Retour |
|
Lexiques et textes convertis à UnicodeDans les tableaux ci-dessous figurent d'abord cinq lexiques des mathématiques dans les langues citées, avec le français comme langue pivot. Ces ressources participent de l'effort terminologique en cours dans plusieurs pays du Sud membres du RIFAL, conformément à certains des objectifs du réseau. Les autres textes appartiennent à des domaines variés, la plupart ayant trait à l'enseignement. Attention ! En attendant la clarification des droits d'auteur sur ces textes, les versions intégrales ne sont pas disponibles. Seuls des extraits des textes le sont. Pour chacun des lexiques/textes fournis, plusieurs fichiers sont disponibles: le document initial, le résultat de sa conversion au format HTML avec balises <FONT>, puis le résultat de sa conversion à l'encodage Unicode, sans balises <FONT>. Seule la dernière version est lisible sans installer les polices particulières ayant servi à rédiger le document initial. Il faut disposer d'un navigateur capable de déchiffrer Unicode (versions récentes de Netscape® ou Internet Explorer®), d'une police Unicode, et il faut parfois explicitement indiquer à son navigateur l'encodage et/ou la police choisis.
|
| Nom du fichier | Langue | Police initiale | Emplacement des fichiers | Description |
| hausa_lexique_math | Hausa | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Lexique des mathématiques français - hausa réalisé à l'INDRAP (500 entrées environ). |
| hausa_lexique_math_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du précédent, lettres A et B. |
| zarma_lexique_math | Zarma | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Lexique des mathématiques réalisé à l'INDRAP français - zarma (500 entrées environ). |
| zarma_lexique_math_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du précédent, lettres A et B. |
| tamajaq_lexique_math | Tamajaq | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Lexique des mathématiques réalisé à l'INDRAP français - tamajaq (500 entrées environ). |
| tamajaq_lexique_math_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du précédent, lettres A et B. |
| kanuri_lexique_math | Kanuri | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Lexique des mathématiques réalisé à l'INDRAP français - kanuri (500 entrées environ). |
| kanuri_lexique_math_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du précédent, lettres A et B. |
| fulfulde_lexique_math | Fulfulde | Indrap98 | .DOC
.HTM (Isolatin) |
Lexique des mathématiques réalisé à l'INDRAP français - fulfulde [peul] (500 entrées environ). |
| fulfulde_lexique_math_1 | = | = | DOC
.HTM (Isolatin) |
Extrait du précédent, lettres A et B. |
| Nom du fichier | Langue | Police initiale | Emplacement des fichiers | Description |
| hausa_grammaire | Hausa | Nigerienne | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Manuel de lecture et grammaire pour les élèves de 3ème année (primaire) - 43 pages. |
| hausa_grammaire_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 2 pages. |
| hausa_lecture | Hausa | Nigerienne | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Guide de l'enseignant, lecture, 1ère année - 16 pages. |
| hausa_lecture_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 2 pages. |
| hausa_mathematiques | Hausa | Nigerienne | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Guide de l'enseignant, mathématiques, 1ère année - 14 pages. |
| hausa_mathematiques_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 2 pages. |
| zarma_destin | Zarma | Langues Niger SILDoulos | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Le destin [Irkoy waadu], roman, par Kadi Isa Mahamadu. Non publié, 17 pages. |
| zarma_destin_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 3 pages. |
| zarma_habitude | Zarma | Langues Niger SILDoulos | .DOC
.HTM (<FONT>) .HTML (Unicode) |
On ne s'habitue pas au malheur [Bone manti doonay], roman, par Kadi Isa Mahamadu (29 p.) |
| zarma_habitude_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 6 pages. |
| tamajaq_lecture | Tamajaq | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Guide de l'enseignant, lecture, 1ère année - 61 pages. |
| tamajaq_lecture_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 4 pages. |
| tamajaq_calcul | Tamajaq | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Guide de l'enseignant, calcul, 1ère année - 25 pages. |
| tamajaq_calcul_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 3 pages. |
| kanuri_constitution | Kanuri | Indrap98 | .DOC
.HTM (<FONT>) .HTML (Unicode) |
La Constitution du Niger traduite en kanuri - 39 pages. |
| kanuri_constitution_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 5 pages. |
| kanuri_styles | Kanuri / Fr. | Add | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Description des styles de textes - 6 pages. |
| kanuri_styles_1 | = | = | .DOC
.HTM (<FONT>) .HTML (Unicode) |
Extrait du texte précédent - 2 pages. |