Textes produits pendant les formations GTF-RIFAL à l'INDRAP, Niamey

Synthèse des stages - Corpus de textes nigériens

 

Les langues traitées et leur encodage

Les textes présentés ici appartiennent aux cinq plus importantes langues nationales du Niger (la langue officielle étant le français), parlées au total par plus de 90% de la population du pays. Un aperçu des langues et dialectes parlés au Niger figure sur le site de SIL International. Les cinq langues traitées au cours de la formation, et parlées par les participants, sont énumérées ci-dessous ; elles appartiennent toutes à des familles linguistiques distinctes. L'orthographe des noms suit l'usage nigérien, le code à trois lettres étant celui de la SIL.

hausa (haoussa) - HUA
Le hausa est la langue la plus parlée d'Afrique noire, avec environ 35 millions de locuteurs, dont 5 millions au Niger, soit plus de la moitié de la population du pays. Cette langue est utilisée aussi comme langue d'échange parmi les commerçants d'Afrique de l'Ouest.

zarma (djerma, zerma) - DJE
Le zarma est la langue de l'ethnie homonyme qui constitue environ 20% de la population du Niger (soit 1,5 millions de personnes), reliée aux Songhai du Mali.

fulfulde (peul) - FUV
Le peul est une langue très répandue en Afrique de l'Ouest, totalisant environ 15 millions de locuteurs, dont 800.000 environ au Niger.

tamajaq (tamasheq) - THZ / TTQ
Le tamajaq possède environ 800.000 locuteurs ; il s'agit d'une langue berbère parlée par les Touaregs du Sahara.

kanuri (kanouri) - KBY
L'ethnie kanuri constitue environ 5% de la population du Niger (soit 400.000 locuteurs).

 

Les textes disponibles à l'INDRAP utilisent plusieurs polices de caractères (en général sous le système d'exploitation Microsoft Windows 95®). En effet, la transcription des langues citées fait appel à certains caractères spéciaux ne faisant pas partie du jeu de 256 caractères ISO-8859-n (où n vaut de 1 à 7). Dans la mesure toutefois où la plupart des caractères utilisés sont latins (p.ex. ISO-latin-1), la solution adoptée à l'INDRAP consiste à personnaliser ce jeu de caractères en redéfinissant certaines entrées avec des caractères phonétiques propres à chaque langue. Cette opération a été exécutée lors de précédents stages, ou par des visiteurs, en général à l'aide du logiciel SIL Encore Fonts, qui dispose d'une base de caractères classés selon les codes de la SIL. Le principal problème que pose cette approche (par ailleurs assez adaptée au traitement de texte utilisé) est que le partage de ces textes est impossible si on ne dispose pas de la police particulière qui a servi à créer chaque texte. Or, ces polices personnalisées ont une portée très locale - l'INDRAP seul utilise quatre polices différentes (et incompatibles). On comprend donc bien l'objectif de la formation 2000 : mettre en place un protocole de conversion de ces ressources à un format partageable, ici le format HTML avec l'encodage Unicode.

Nous donnons ici, par souci de complétude, les fichiers des polices utilisées à l'INDRAP (TrueType) : Indrap98, Nigerienne, Langues Niger SIL Doulos, ADD ; ajoutons aussi la police LucidaSansUnicode (© Bigelow and Holmes 1993). Pour en savoir plus sur cette question, et obtenir d'autres fichiers de polices, on pourra se référer au rapport technique, au site Unicode, à la page de SIL International sur les polices ainsi qu'à une autre page sur les polices Unicode existantes ; les plus étendues sont "Bistream Cyberbit" et "Microsoft Arial Unicode". Pour tester l'affichage d'un encodage ou d'une police donnés, vous pouvez utiliser les pages de codes du répertoire unicode local.

La conversion à l'encodage Unicode a été réalisée grâce au logiciel de conversion CONV2UTF8 développé au LLACAN (UMR 7594 du CNRS, à Villejuif, France) par Christian Chanard, comme décrit dans le programme de la formation.

Retour
 

 

Lexiques et textes convertis à Unicode

Dans les tableaux ci-dessous figurent d'abord cinq lexiques des mathématiques dans les langues citées, avec le français comme langue pivot. Ces ressources participent de l'effort terminologique en cours dans plusieurs pays du Sud membres du RIFAL, conformément à certains des objectifs du réseau. Les autres textes appartiennent à des domaines variés, la plupart ayant trait à l'enseignement.

Attention ! En attendant la clarification des droits d'auteur sur ces textes, les versions intégrales ne sont pas disponibles. Seuls des extraits des textes le sont.

Pour chacun des lexiques/textes fournis, plusieurs fichiers sont disponibles: le document initial, le résultat de sa conversion au format HTML avec balises <FONT>, puis le résultat de sa conversion à l'encodage Unicode, sans balises <FONT>. Seule la dernière version est lisible sans installer les polices particulières ayant servi à rédiger le document initial. Il faut disposer d'un navigateur capable de déchiffrer Unicode (versions récentes de Netscape® ou Internet Explorer®), d'une police Unicode, et il faut parfois explicitement indiquer à son navigateur l'encodage et/ou la police choisis.

 

Nom du fichier Langue Police initiale Emplacement des fichiers Description
hausa_lexique_math Hausa Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
Lexique des mathématiques français - hausa réalisé à l'INDRAP (500 entrées environ).
hausa_lexique_math_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du précédent, lettres A et B.
zarma_lexique_math Zarma Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
Lexique des mathématiques réalisé à l'INDRAP français - zarma (500 entrées environ).
zarma_lexique_math_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du précédent, lettres A et B.
tamajaq_lexique_math Tamajaq Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
Lexique des mathématiques réalisé à l'INDRAP français - tamajaq (500 entrées environ).
tamajaq_lexique_math_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du précédent, lettres A et B.
kanuri_lexique_math Kanuri Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
Lexique des mathématiques réalisé à l'INDRAP français - kanuri (500 entrées environ).
kanuri_lexique_math_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du précédent, lettres A et B.
fulfulde_lexique_math Fulfulde Indrap98 .DOC
.HTM (Isolatin)
Lexique des mathématiques réalisé à l'INDRAP français - fulfulde [peul] (500 entrées environ).
fulfulde_lexique_math_1 = = DOC
.HTM (Isolatin)
Extrait du précédent, lettres A et B.

 
 
Nom du fichier Langue Police initiale Emplacement des fichiers Description
hausa_grammaire Hausa Nigerienne .DOC
.HTM (<FONT>)
.HTML (Unicode)
Manuel de lecture et grammaire pour les élèves de 3ème année (primaire) - 43 pages.
hausa_grammaire_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 2 pages.
hausa_lecture Hausa Nigerienne .DOC
.HTM (<FONT>)
.HTML (Unicode)
Guide de l'enseignant, lecture, 1ère année - 16 pages.
hausa_lecture_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 2 pages.
hausa_mathematiques Hausa Nigerienne .DOC
.HTM (<FONT>)
.HTML (Unicode)
Guide de l'enseignant, mathématiques, 1ère année - 14 pages.
hausa_mathematiques_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 2 pages.
zarma_destin Zarma Langues Niger SILDoulos .DOC
.HTM (<FONT>)
.HTML (Unicode)
Le destin [Irkoy waadu], roman, par Kadi Isa Mahamadu. Non publié,  17 pages.
zarma_destin_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 3 pages.
zarma_habitude Zarma Langues Niger SILDoulos .DOC
.HTM (<FONT>)
.HTML (Unicode)
On ne s'habitue pas au malheur [Bone manti doonay], roman, par Kadi Isa Mahamadu (29 p.)
zarma_habitude_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 6 pages.
tamajaq_lecture Tamajaq Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
Guide de l'enseignant, lecture, 1ère année - 61 pages.
tamajaq_lecture_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 4 pages.
tamajaq_calcul Tamajaq Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
Guide de l'enseignant, calcul, 1ère année - 25 pages.
tamajaq_calcul_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 3 pages.
kanuri_constitution Kanuri Indrap98 .DOC
.HTM (<FONT>)
.HTML (Unicode)
La Constitution du Niger traduite en kanuri - 39 pages.
kanuri_constitution_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 5 pages.
kanuri_styles Kanuri / Fr. Add .DOC
.HTM (<FONT>)
.HTML (Unicode)
Description des styles de textes - 6 pages.
kanuri_styles_1 = = .DOC
.HTM (<FONT>)
.HTML (Unicode)
Extrait du texte précédent - 2 pages.

Retour


Last modified: Thu Mar 8 12:42:58 MET 2001