next previous
Next: La pertinence Up: Méthodes de mesure de Previous: Méthodes de mesure de

L'exhaustivité

L'exhaustivité sera évaluée par la mesure de ses deux sous-attributs:

La couverture lexicale

Cette section couvre les méthodes que nous allons appliquer aux mesures afin d'évaluer la couverture lexicale d'un correcteur orthographique. Celle-ci aura sûrement une grande importance pour bon nombre d'utilisateurs. C'est aussi un attribut qui est très clair pour l'utilisateur moyen: tout utilisateur peut comprendre s'il lit que tel logiciel reconnaıt 83,8 des mots du Petit Robert. Mais on ne sait pas réellement quelle valeur attribuer à ce chiffre. En d'autres mots, un correcteur qui ne reconnaıt que 79 est-il véritablement moins utile? Les domaines et sous-domaines que nous allons traiter visent à couvrir les besoins de divers types d'utilisateurs que nous avons identifiés (cf. la section sur les profils d'utilisateurs).

Les sous-attributs correspondants à la couverture lexicale sont les suivants:

La couverture de mots courants

Nous faisons la distinction entre les mots courants faisant partie de groupes lexicaux fermés (déterminants, pronoms, prépositions, adverbes, conjonctions), et ceux faisant partie des groupes ouverts (noms, verbes, adjectifs, etc.). Pour les groupes fermés, des listes exhaustives peuvent être élaborées manuellement. Ainsi, la mesure sera un pourcentage des mots reconnus par le correcteur.

Pour ce qui est des groupes ouverts (dont le nombre n'est pas limité), la méthode consiste à construire des listes d'un nombre X de mots parmi les plus fréquents de la langue françaisegif. Nous mesurerons le pourcentage de mots que le système reconnaıt, c'est-à-dire qu'il ne signale pas comme une erreur. Il s'agit donc d'un test du dictionnaire de base.

Remarque: la notion de mots les plus fréquents de la langue française est éminemment arbitraire. Ainsi, selon l'étude menée par le professeur Baudot en 1992 sur la fréquence des mots de la langue française(Baudot), le tiers d'un texte n'est composé que de 15 mots différents, ou encore, la moitié que de 47! C'est dire encore toute l'importance de la couverture lexicale des mots courants.

Il est clair qu'il n'est pas possible de tester tous les mots de la langue française, et puis il ne serait pas souhaitable qu'ils soient tous dans le dictionnaire de base. Il est donc possible de ne considérer qu'une portion réduite des mots les plus fréquents du français qui seront représentatifs de la totalité. Ainsi si nous prenons les N premiers mots parmi les plus fréquents, nous constatons que plus nous prenons de mots dans la liste moins ils sont fréquents. En d'autres termes, le nombre de mots ayant une fréquence très basse est très élevé.

Exemple: environ les trois quarts (75,4) des mots du vocabulaire d'un texte d'environ un million de mots n'ont pas plus de 12 occurrences dans le texte et ne représentent qu'environ 5 (5,28) des occurrences du texte(Baudot). (Exemple qui ne peut être extrapolé directement pour des textes de tailles différentes.)

La couverture de sous-langages techniques

Par sous-langages techniques, nous entendons des sous-ensembles de la langue française qui sont propres à certains domaines (techniques ou spécialisés) - médecine, droit, économie, aéronautique, etc. Les termes de ces sous-ensembles ne sont pas nécessairement exclusifs à leur domaine d'application, toutefois ils en sont représentatifs.

Exemples: steward [aviation], dumping [économie], conclave [religion], configurer [informatique], écoutille [nautisme]

Des tests devront être effectués sur un nombre de sous-langages techniques. (Note: ici encore, le choix de textes dits représentatifs de tel ou tel domaine est arbitraire; il faudra expliquer la composition des listes de mots que nous avons créées.)

Les éléments lexicaux composés

Les éléments lexicaux composés représentent concrètement des séries d'unités lexicales qui ne peuvent être utilisées séparément ou bien qui subissent des variations morphologiques différentes. Ces unités sont délimitées par des séparateurs, typiquement un espace, mais aussi des signes de ponctuation (virgule, guillemets, tiret, point, point-virgule, parenthèses, etc.), des chiffres, ou tout autre caractère qui ne fait pas partie de l'alphabet.

Exemples: ad hoc est un élément composé qui ne peut pas être séparé; ses éléments n'ont aucun sens lorsqu'ils sont isolés. Les éléments haut-parleur et haut-parleurs sont valides, ainsi que les pluriels hauts et parleurs; par contre, *hauts-parleursgif est incorrect.

Malheureusement, du point de vue des correcteurs d'orthographe disponibles actuellement, ces éléments ne peuvent être considérés que comme des éléments séparés et les systèmes que nous connaissons acceptent indépendamment ad et hoc (et par conséquent une phrase du genre ``Ils ont participé au ad comité hoc.'').

Le cas de l'apostrophe est différent: il ne représente pas un séparateur à part entière. Alors que le terme aujourd'hui est invariable (sauf comme nom masculin dans un usage littéraire) et insécable, il y a véritablement deux termes dans l'école.

Ainsi, les correcteurs plus primitifs simplifient le problème en traitant parfois l'apostrophe comme un séparateur à part entière. Ceux-là ne signaleront pas la ensemble

*aujourd ciel hui
comme fausse puisqu'ils considèrent ces trois termes indépendamment valables. Ces mêmes systèmes ne signaleront pas un [l'] isolé puisqu'ils considèrent que la suite l'école est formée de deux termes. Alors qu'ils s'arrêtent sur *l'maison, il suffit de mettre un espace entre les deux, et l'[] maison n'est plus signalé.

En revanche, les correcteurs plus évolués ne considèrent pas l'apostrophe comme un séparateur à part entière et signalent les occurrences de [l'] isolé puisqu'ils admettent l'élision, mais naturellement sans espace après l'apostrophe.

Les sous-langages fermés

Il s'agit dans notre cas d'emprunts de langues étrangères, d'archaısmes, de jargon, voire d'obscénités.

Il sera possible de construire des listes pour les exemples de sous-langages fermés cités plus haut. La mesure comprendra un simple pourcentage des mots reconnus par le système.

Le cas des emprunts de langues étrangères sera plus délicat. En effet, la catégorie d'emprunts de langues étrangères comprend deux types de phénomènes. Il y a les emprunts qui font aujourd'hui partie de la langue, et qui sont d'ailleurs acceptés par les principaux dictionnaires (par exemple, week-end, agio, footing), puis les termes qui font plutôt partie d'un sous-langage technique (termes médicaux, informatiques, etc.). La distinction ne sera pas toujours très claire, mais il sera possible de construire des listes d'emprunts représentatives.

Comme le terme sous-langage le laisse entendre, il sera souvent question de sous-ensembles du français. Néanmoins, il est important d'obtenir des mesures pour ces sous-ensembles de manière à satisfaire les exigences d'utilisateurs qui seraient particulièrement intéressés par la couverture de ce genre de phénomènegif.

Les sous-langages productifs

Un sous-langage productif est un ensemble dont le volume n'est pas défini. Par conséquent, nous devons nous contenter de réunir une partie assez importante pour qu'elle soit représentative de cette ensemble. La couverture des sous-langages productifs peut être testée par des listes pour chaque type de sous-langage. Le pourcentage de mots reconnus par le système sera alors calculé.

Les noms propres

La quantité et le potentiel de création des noms propres est tel qu'il n'est pas envisageable de créer de liste exhaustive. De plus, la fréquence et le type de nom dépendra beaucoup de la région géographique et de la langue.

Les noms de lieu

Bien des utilisateurs aimeraient voir les principaux noms de lieux (pays, villes, régions, départements, provinces, etc.) de leur région géographique reconnus par le logiciel. Des listes représentatives de ces noms seront créées afin de permettre d'évaluer les systèmes. Il sera important de prendre en considération la région de commercialisation du produit (Europe, Amérique, Afrique). La mesure sera un pourcentage des noms reconnus.

Les noms de personnes

La fréquence des noms de personnes sera clairement dépendant de la langue et de la région géographique. Dans le cas du français, des noms comme Pierre ou Martin devraient être reconnus par le correcteur.

Les abréviations, les symboles et les sigles

Ces catégories sont assez arbitraires mais des listes représentatives seront créées afin de donner une idée des besoins des utilisateurs. L'exactitude des abréviations, des symboles, ou des sigles sera très importante dans le cas du français, que ce soit concernant l'orthographe ou les majuscules.

Dans le cas des sigles, il convient de se souvenir qu'ils peuvent être écrits soit tout en majuscules (ONU), soit en majuscules avec des points (O.N.U.), soit avec la première majuscule seulement (Onu), mais les combinaisons sont difficilement acceptables (BéNéLux), voire inacceptables (ONu). Dans les faits, Grévisse indique que les sigles qui peuvent se prononcer (acronymes) ne prennent généralement pas de point et peuvent avoir une majuscule au début ou partout (Unesco, UNESCO). Tout cela relève de règles qui ne sont pas toujours suivies. La mesure sera un pourcentage simple des formes reconnues par le système.

Exemples:

Les variantes orthographiques

Des listes de variantes orthographiques pourront être compilées.

Les faux positifs

Les faux positifs sont les éléments lexicaux que le logiciel ne connaıt pas (pour l'instant, ou jusqu'au prochain emploi, si l'utilisateur ajoute le terme correctement), mais qui sont légitimes selon les désirs de l'utilisateur. En d'autres mots, le correcteur de devrait pas les signaler.

Nous tenons à souligner que les faux positifs représentent un réel problème dans la mesure où les utilisateurs connaissent rarement assez bien le fonctionnement de leur logiciel. En effet, le problème vient souvent d'un manque d'information sur l'utilisation efficace des fonctions de vérification d'orthographe.

Par exemple, si un utilisateur essayait de comprendre dès le début les différences entre les options offertes pendant la vérification (ignorer, ajouter, ignorer toujours, etc.), il commencerait tout de suite à ajouter les mots manquants du dictionnaire de base à son dictionnaire personnel. Ou bien, l'utilisateur averti ferait attention à ne pas trop ajouter de termes à son dictionnaire personnel, ce qui risquerait de causer des problèmes d'acceptation d'erreurs par la suite. Dans une situation idéal, un utilisateur n'ajouterait pas de termes techniques qui risqueraient d'entraıner une confusion à son dictionnaire personnel général; il créerait plutôt un dictionnaire personnel thématique.

La mesure du taux de faux positifs sera obtenue dans ce cas en se reportant aux listes établies pour la couverture lexicale afin de calculer le pourcentage de rejets pour chaque liste de mots corrects. Concrètement, pour une liste de départ jugée exacte, si un correcteur a un taux de couverture lexicale de 65, il aura implicitement un taux de faux positifs de 35. C'est-à-dire que l'information fournie n'est pas nouvelle, elle est seulement présentée de manière à ce que l'utilisateur puisse évaluer d'une manière plus efficace les performances du logiciel pour chaque sous-attribut.

De plus, il sera intéressant d'obtenir des taux de faux positifs pour des tests qui seront effectués sur des corpus plus généraux, ou représentatifs de telle ou telle catégorie d'utilisateur.

Malheureusement, la compilation de corpus non corrigés est particulièrement difficile. En effet, il serait très révélateur de pouvoir faire des tests sur des corpus volumineux qui n'auraient pas été préalablement vérifiés par un correcteur.

La représentativité des corpus utilisés pour les tests sera toujours un point très important qu'il est nécessaire d'analyser avant de donner les résultats de ces tests. Ainsi, cette caractéristique sera totalement dépendante de la finesse de notre description des utilisateurs. Par exemple, une certaine catégorie d'utilisateurs peut comprendre les journalistes en général; mais elle peut aussi comprendre uniquement les journalistes qui utilisent des logiciels de reconnaissance de la parole, ce qui serait déjà plus précis. Donc, le même texte ne pourra être représentatif des deux types d'utilisateurs à la fois.


next up previous
Next: La pertinence Up: Méthodes de mesure de Previous: Méthodes de mesure de

sandra.manzi@issco.unige.ch