Notes sur la Banque de Données Terminologiques du Rifal

 

Unea banque véritablement multilingue

La Banque de Données Terminologiques du Rifal (BDTR) est conçu comme une banque véritablement multilingue, en ce sens que son architecture très modulaire permet théoriquement un nombre illimité de langues. Toutes les langues sont placées sur un même pied d’égalité, chacune étant traitée correctement dans le respect de toutes ses spécificités. En conséquence, il n’y a pas de langue pivot par principe, ce qui n’empêche pas les utilisateurs de se définir une langue de travail, (par exemple, le français,) sachant que celle-ci n’est nullement imposée par la structure de la banque de données.

Avant d’aller plus loin, précisons que nous établissons une différence fondamentale entre une " banque de données " et une " base de données ". Tandis que la base de données contient toutes sortes d’informations dont on ne veut pas perdre la trace, même celles qui sont pas encore validées, une banque de données ne doit contenir que des informations fiables et dûment validées, et donc diffusables.

Une architecture relationnelle hiérarchisée ouverte

La BDTR est organisée à la fois au niveau local et au niveau international en une série de composantes. Nous allons d’abord décrire la structure locale de la BDTR puis sa structure internationale.

Au niveau local

Chaque institution membre crée un ensemble de bases de données relationelles organisées comme suit :

  1. Une seule base de concepts, appelée " Base Concepts "
  2. Une base lexicale par langue et par discipline. Si par exemple, on doit traîter du lexique de la santé en wolof (WLF), la base wolof pourrait s’appeler " SANT_WLF.DB " tandis que la base malgache (MLG) pourrait s’appeler " SANT_MLG.DB " et la base française " SANTE_FR.DB " etc. Pour que les fichiers soient utilisables par Shoebox, veillez à respecter le format DOS des noms de fichier (8 caractères, point, trois caractères maximum).
  3. Une seule base de données contenant les encodages de chaque langue, " Base Encolangues " Cette base de données contient les informations nécessaires au bon traitement (impression, affichage, mise en page, etc.) des données dans chaque langue.
  4. Une base de données " Index " générée automatiquement, qui permettra d’établir les relations entre toutes les bases et de les exploiter

Au niveau international

Afin de rendre immédiatement accessible à tous les membres du RIFAL les données dûment validées fournies par chaque membre, une banque de données commune sera créée et placée en un lieu où elle pourra être gérée le plus aisément possible (par exemple à l’ISSCO Genève, Suisse). Cette banque de données aura la même architecture que les composantes locales. Mais en plus, des utilitaires spécifiques permettront d’intégrer toutes les données envoyées par les différents membres dans un ensemble cohérent.

Organisation hiérarchisée des données terminologiques

Les données terminologiques sont organisées sur trois niveaux: hniérarchisées. Le niveau le plus élevé.est celui du concept. Les informations de ce niveau sont valables pour toute la fiche dans toutes les langues. Il n’y a donc qu’une fiche par concept, lequel est identifié uniquement par le numéro de fiche. Ce numéro est également unique dans toute la banque de données.

Dans chaque institution locale, le numéro de fiche est constitué de trois parties: le sigle de l’institution, le sigle du projet auquel appartient la fiche, et le numéro d’ordre. Par exemple, une fiche qui provient du CELTA et qui fait partie du projet "Lexique des élections" (ELEC), et qui est la 45ème fiche, aura comme numéro : "CELTA-ELEC-45". Cette structure de numérotation autorise divers traitements au moment de l’intégration de cette fiche dans la banqgue commune internationale.

Le second niveau de hiérarchie des données est celui de la langue. C’est ici que l’on donne la définition du concept dans chaque langue ainsi que toutes les notes explicatives relatives à la perception de ce concept dans chaque langue particulière. Le niveau langue ne concerne qu’une langue à la fois, et les informations de ce niveau sont valables pour toutes les dénominations relatives à ce concept dans cette langue.

Le troisième niveau est celui du terme. Les données consignées ici ne concernent que chaque terme perremettant d’exprimer ce même concept. Les informations sur le terme couvrent aussi ses variantes et ses relations sémantiques avec d’autres termes.

Outre les informations proprement terminologiques, des informations administratives servant à la gestion des bases de données sont consignées à chaque niveau selon le principe d’héritage. Celles qui concernent l’ensemble de la fiche se situent au niveau le plus élevé, et celles qui ne concernent qu’une partie de la fiche se situent au niveau requis par leur portée. Ainsi, par rapport à un concept donnnée, la fiche peut être jugée "exportable" vears la banque centrale, lorsqu’elle a été entièrement traîtée et validée au moins pour une langue et un termne dans cette langue. Sinon, la validation peut concerner seulement la langue ou un terme dans la langue, alors que la fiche n’est pas encore exportable.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Implantation sous Shoebox 4.2+

Sous Shoebox, (version 4.2 et plus) le niveau Concept est placé dans une base de donnée séparée, appelée "Fiches.db", et les deux autres niveaux (Langue et Terme) sont réunis dans une même base de données "Langue". Par exemples: "Français.db", "Swahili.db", "Wolof.db", "Sango.db" etc. Il y a, bien sûr, autant deque bases de données ici que de langues. Comme Shoebox gère directement les encodages des langues, il faut créer pour chacune de ces bases de données un type de base différent incorporant l’encodage spécifique de la langue. Ainsi, le fichier "Français.db" sera de type "Français.typ", le fichier "Swahili.db" sera de type "Swahili.typ", etc. Comme les fichiers "Français.typ" et "Swahili.typ" (etc.) ne diffèrent que par l’encodage de langue. Toute la structure des champs, leur enchaînement et leurs étiquettes, restent inchangées.

Liste des fichiers

Avant de copier les fichiers reçus depuis le CD-Rom du stage, assurez-vous que Shoebox est déjà installé sur votre disque dur. Sur le CD du stage, vous trouverez les répertoires suivants: BDTR,IFAL, CELTA, CLAD, CLAM, FLA, ILA, et INDRAP, TERMISTI.

Le répertoire BDTRIFAL contient le projet BDTR.PRJ qui est une mise en commun de toutes les bases de données réalisées par tous les membres du réseau Rifal. Ce squelette de Banque commune nous permet d’étudier et de résoudre les différents problèmes d’intégration des fichiers qui peuvent se poser. Il n’est donc fourni ici qu’à titre informatif. Vous n’aurez pas besoin de l’installer sur votre disque dur.

Le répertoire CELTA contient le projet BDTR_CELTA.PRJ qui est la version du BDTR propore au CELTA (RDCongo).

Le répertoire CLAD contient le projet BDTR_CLAD.PRJ qui est la version du BDTR propore au CLAD (Sénégal).

Le répertoire CLAM contient le projet BDTR_CLAM.PRJ qui est la version du BDTR propore au CLAM (Madagascar).

Le répertoire FLA contient le projet BDTR_FLA.PRJ qui est la version du BDTR propore au FLA (Haïti)

Le répertoire ILA contient le projet BDTR_ILA.PRJ qui est la version du BDTR propore au ILA (Centrafrique).

Le répertoire INDRAP contient le projet BDTR_INDRAP.PRJ qui est la version du BDTR propore au INDRAP (Niger)

Le répertoire TERMISTI contient le projet BDTR_TERMISTI.PRJ qui est un exemple du dossier BDTR réalisé avec les données proposées par Marc Van Campenhoudt (Termisti, Belgique). Il contient des données en français et en kisawahili à titre expérimental.

..Installation des fichiers

Allez dans le répertoire ‘My Shoebox Setting" sur votre disque dur. Choisissez, sur le CD du stage, le dossier qui intéresse votre institution (celui qui porte son nom) et copiez-le (avec tout son contenu) dans le répertoire "My Shoebox Setting" dur disque dur. Vous devez obtenir un chemin comme: "C:\My Shoebox Setting\Celta"

De retour sur le bureau, ouvrez Shoebox . S’il s’ouvre sur un projet précédemment ouvert, fermer ce projet. Dans la fenêtre de dialogue initiale qui s’affiche, choisissez "Ouvrir un projet existant" puis cliquez sur OK. Dans la fenêtre qui s’ouvre, entrez dans le répertoire qui porte le nom de votre institution, puis cliqduez sur le fichier de projet indiqué par une boîte bleue ouverte (ex. BDTR_CLAD.PRJ). Shoebox ouvre alors ce projet et affiche les bases de données suivants:

FICHES.DB

la base des concepts, lesquels se résument à un numéro de fiche

FRANÇÇAIS.DB

distribuée à tout le monde

SWAHILI.DB

distribuée à tout le monde, mais souvent affichée sous forme minimisé

et au moins une base vide portant le nom d’une des langues traitées dans votre institution (ex. ZARMA.DB, WOLOF.DB,; LINGALA.DB, CREOLE.DB, MALGACHE.DB, SANGO.DB etc.)

Commencez par l’encodage des langues

Commencer par procéder à l’encodage de la langue sur laquelle vous allez travailler (même si un fichier de données ".DB" a été prévu dans le lot des fichiers qui vous est fourni. Bien entendu, si vous travaillez sur une machine où l’encodage de votre langue avait déjà été fait antérieurement, il se peut que vous n’ayez plus à le refaire! Assurez-vous-en.

Pour encoder une langue, cliquez en haut de l’écran sur l’onglet "Projet" (ou "Project") puis dans le menu déroulant sur "Encodage de langue" (ou "Language Setting") et entrez toutes les informations qui vous sont demandées successivement dans les fenêtre de dialogue.. Une fois terminé, fermez toutes les fenêtres de dialogues pour retrouver les seuls fichiers ".DB" ouverts.

Configurez le type de base de données

Si l’un des fichiers de données ".DB" ouverts porte le nom de votre langue, sélectionnez-le en cliquant sur la bande de titre, puis allez dans "Projet / Type de Base "(ou "Proorject / Database type"). :

 

1. Copier un type de base

Dans la fenêtre qui s’ouvre, sélectionnez le type de base "Swahili.typ" et cliquez sur le bouton "Copier" (ou "Copy"). Une fenêtre s’ouvre et vous demande le nom du nouveau type de base de données, entrez le nom de votre langue, puis fermez la fenêtre pour revenir à la fenêtre précédente. Le nouveau type de base est maintenant dans la liste. Il faut maintenant le configurer.

2. Configurer un type de base

Cliquez sur le type de base de votre langue. Dans la fenêtre qui s’ouvre en montrant la liste de tous les champs, cliquez sur le champ "def" (Définition" auquel la langue swahili est associée, et dans la fenêtre qui s’ouvre, remplacez "swahili" par le nom de votre langue. Fermez cette fenêtre, et recommencez l’opération avec tous les autres champs ayant "swahili" comme langue. Une fois terminé, vous pouvez fermer la fenêtre de configuration du type de base de données.

3. Créer un nouveau fichier de base de données

Si votre langue n’a pas encore de fichier ".DB", c’est maintenant qu’il faut le créer. Aller dans "Fichier / Nouveau" (ou "Files / New") Une fenêtre s’ouvre vous demandant à quel type voulez-vous affecter le nouveau fichier ".DB"; Choisissez dans le menu contextuel déroulant le nom de votre langue (qui est aussi celui du fichier type, d’extension ".TYP", que vous avez créé plus haut.. Puis, dans la fenêtre d’enregistrement des fichiers qui s’ouvre, donnez le nom du fichier ".DB" comme celui-ci "Malangue.db"

Ajouter des données

Vous êtes maintenant prêts pour ajouter des données dans la base de votre langue. Deux cas de figures se présentent: ou bien les données que vous voulez ajouter concernent un concept déjà traité dans la base de données dans une autre langue (ex. dans le fichier "FRANÇAIS.DB") et pour lequel une fiche a donc déjà été créé dans le fichier FICHES.DB, ou bien ces données se rapportent à un concept nouveau qui n’est pas encore enregistré dans aucun des fichiers de la banque. Vous procéderez comme suit:

1. Complétéer un concept déjà enregistré.

Ouvrez le fichier FRANÇAIS.DB. Allez à la fiche contenant la description du concept et sa dénomination en français. Allez dans le fichier FICHES.DB au même numéro de fiche, et vérifiez que ce concept est bien enregistré. En laissant ces deux fichiers ouverts, allez dans "Fichier / Ouvrir" (ou "File / Open") pour ouvrir le fichier ".DB" de votre langue si celui-ci n’était pas déjà ouvert. S’il l’était déjà, sélectionnez-le pour le rendre actif.

Si votre fichier n’avait aucune fiche de rempli, celle qui se présentera n’aura pas de numéro de fiche. Entrez alors le même numéro de fiche que celui du concept dans la base FICHES.DB ou dans la base FRANÇAIS.DB. Puis remplissez successivement les autres champs qui sont pertinents pour votre langue, votre travail ou vos données.

Si par contre votre fichier "Malangue.db" eéxistait déjà et contenait des fiches, mais pas une qui corresponde au concept que vous voulez documenter, placez le curseur à la fin du champ "\num Numéro de fiche" et tapez les touches "Ctrl N". Une fenêtre s’ouvre avec une copie du numéro de fiche courant que vous devez modifier pour entrer le numéro de fiche du concept que vous voulez documenter.. Validez et votre nouvelle fiche est présentée pour être remplie avec vos données

2. Introduire un nouveau concept dans la base de données

Pour introduire un nouveau concept dans la base, il est impératif d’ajouter une fiche nouvelle dans le fichier FICHES.DB avec un numéro distinct. (Voir ci-dessous "Comment numéroter les fiches"). Cliquer à la fin du champ "Numéro de fiche" dans le fichier "FICHES.DB", et tapez sur les touches Ctrl N" pour ajouter une nouvelle fiche. AIncrémentez le numéro qui se présente. La nouvelle fiche est créée. Modifiez les autres champs de cette fiche, si nécessaire.

Il faut ensuite aller dans la base "Malangue.db" (celle de votre langue) et y créer une fiche portant le même numéro, pour continuer à rdocumenter le concept. On procèdera de même pour toutes les autres langues de la base de données. Parce que le français est notre langue commune de travail et de communication, il faut documenter en français, même sommairement, tous les concepts introduits dans la base FICHES.DB, en mettant chaque fois à jour le fichier FRANÇAIS.DB.

Comment numéroter les fiches

. Le numéro de fiche doit être UNIQUE dans toute la base de données comme dans la banque de données commune. Nous proposons un système de numérotation qui facilite à la fois la gestion locale des numéros de fiche et sans compliquer la mise en commun des fiches.

Le numéro de fiche est composé de trois parties, A, B, et C. Il commence toujours pas le nom de l’institution où la fiche a été créée. Soit par exemple: CELTA, CLAD CLAM, FLA, ILA, INDRAP, TERMISTI, LLACAN etc…Naturellement il serait souhaitable que ce nom soit aussi court que possible, c’est pourquoi un sigle simple est préférable à une dénomination plus développée. Ainsi le numéro de fiche suffit à identifier l’origine de la fiche

La partie B contient en abrégé le nom du projet local pour lequel l’institution développe une terminologie. Par exemple, si le CLAD est en train de travailler sur la terminologie de la Santé, les fiches créées dans le cadre de ce projet porteront toutes la mention "SANTE". Si une autre équipe du CLAD est en train de travailler sur le projet "Vocabulaire des élections" toutes les fiches créées dans le cadre de ce projet par cette équipe portera en B la mention "ELECT" (pour "ELECTIONS’) Il ne faut pas confondre le domaine d’activité qui peut faire l’objet d’un projet et le domaine scientifique (et technique) auquel un concept peut être rattaché. Ainsi le vocabulaire des élections peut constituer un projet de développement terminologique, alors que l’ensemble de ce domaine d’activité appartient au domaine scientifique de la Sociologie et même au sous-domaine de la sociologie politique.

La partie C du numéro de fiche est un numéro d’ordre codé sur six chiffres au format: 000000. Ce format garantie que les fiches d’un même projet émanant d’une même institution seront classées dans l’ordre. Il autorise un nombre de 999.999 fiches par projet dans chaque institution. Ce qui est plus que largement suffisant dans la quasi totalité des cas.

Ainsi, la fiche "CLAD-ELECT-000012" est la fiche n° 12 du projet "Vocabulaire des élections" du CLAD. Supposons qu’il identifie le concept correspondant au terme "ballotage". Supposons encore que l’INDRAP ait produit pour ce même concept une fiche numéroté localement "INDRAP-ELECTION-000028" Tant que les équipes travaillent séparément dans des bases locales, il n’y aura pas de problème d’intégration à résoudre. Mais si ces deux fiches sont envoyées à la Banque de données commune du Rifal, il suffira, dans un premier temps de ne retenir qu’une seule des deux fiches "Concept" (celle qui va dans FICHES.DB) et de corriger les numéro de fiche des autres fichiers langues en conséquence. Une opération très simple à réaliser, même manuellement. Dans un deuxième temps, il est toujours possible d’envisager la renumérotation automatique de toutes les fiches de la banque commune selon une séquence unique si l’on estime que l’information fournie par le système local ne se justifie pas au niveau international. Lorsque ces deux fiches seront envoyées à la Banque de données commune du RIFAL, elles seront reliées entre elles, à travers une table qui les renverra toutes les deux au même concept (qui aura sa propre numérotation) de la Banque.

 

Marcel Diki-Kidiri

pour le GTF du Rifal.