next previous
Next: L'adéquation des suggestions Up: Méthodes de mesure de Previous: L'exhaustivité

La pertinence

Le taux de pertinence pour un système donné sera égal au pourcentage d'éléments lexicaux incorrects que le correcteur rejette effectivement. Le logiciel ASCCgif pourrait permettre de faire des tests sur des listes de mots représentant certaines catégories d'erreurs que nous aurons générées.

Il est possible de mesurer la pertinence d'une manière semblable à celle proposée pour l'exhaustivité. Nous définirons des catégories d'erreurs et, pour chacune d'entre elles, nous vérifierons des listes de mots contenant cette erreur afin de déterminer combien sont rejetés.

Cette typologie des erreurs sera le reflet des sources d'erreurs suivantes:

Les listes d'erreurs que nous allons créer ainsi seront particulièrement utiles puisque nous auront introduit nous-mêmes les erreurs. Il est possible de considérer les erreurs comme le résultat d'opérations sur un type de cible particulier, ayant pour résultat la transformation d'un objet linguistique. Les fautes de frappe les plus simples ont des caractères pour type de cible: il s'agit des opérations d'insertion, de suppression, de substitution ou de transposition de caractères par d'autres caractères situés à proximité sur le clavier. C'est le type d'erreur le mieux corrigé.

D'autres types d'erreurs ont des cibles plus complexes. Il s'agit notamment des erreurs phonétiques, qui ont pour cible un élément phonétique (Ex. *éléfant pour éléphant, ou *pécunière pour pécuniaire). Ces erreurs sont donc fondées sur la similitude phonétique et non sur la proximité des lettres sur le clavier.

Actuellement, nous avons développé des modules de génération d'erreurs pour les fautes de frappe, dont certaines refléteront des erreurs de type linguistique.

Les fautes de frappe

Il s'agit dans ce cas des erreurs d'inattention du rédacteur

Une faute d'orthographe qui se limite à une seule de ces transformations est définie comme un élément d'erreur simple (``single-error item'') par K. Kukich (Kukich). Ces études présentent des résultats qui indiquent qu'une grande majorité des fautes commises sont des fautes à élément d'erreur simple (entre 69 et 94). C'est pour cette raison que nous nous concentrons principalement sur ce type de faute.

De plus, il est possible d'ajouter deux types d'erreurs d'un autre genre:

Ces types d'erreurs sont distincts dans la mesure où ils modifient le nombre d'unités lexicales: dans le premier cas il en résulte deux à partir d'une seule, et dans le deuxième, il c'est le contraire.

Pour ce qui est du premier type d'erreur, il n'est pas possible d'effectuer les tests dans l'état actuel des chose puisque cela revient à former deux unités lexicales (ordinateur > *ordi nateur: se transforme en deux ``mots'' pour les correcteurs d'orthographe) que les correcteurs actuels n'arrivent pas à traiter (c'est-à-dire que les deux unités résultantes de cette opération sont trop éloignées de leur source).

Pour ce qui est du deuxième, il peut être intéressant d'inclure ce type d'erreur dans une série de tests étendus puisque les correcteurs ont des réactions très variées face à ce type d'erreur. La création de suites de tests se fera par extraction de paires de mots de corpus appropriés.

Les erreurs linguistiques: une taxonomie des erreurs du français

Il s'agit ici des fautes d'orthographe à proprement parler, elles sont particulièrement intéressantes dans le cas des non francophones. Il est intéressant de souligner, à ce stade, la différence entre les erreurs purement mécaniques et celles qui sont visées par cette section. En effet, alors que les premières sont (presque) entièrement le fruit du hasard, les secondes ont une origine linguistique, c'est-à-dire que nous pourrons étudier leur formation. C'est ainsi que nous sommes en mesure de générer des erreurs de type linguistique sur la base d'études des erreurs les plus fréquentes pour le français (Baudot).

Exemples d'erreurs: une erreur comme l'ajout du h dans le mot autorité > *authorité, est caractéristique des rédacteurs de langue maternelle anglophone, de même que le mot exemple > *example où le son [an] peut être représenté de maintes façons; les problèmes d'accents sont courants parmi tous les rédacteurs qui emploient le français - y compris les francophones, le mot événement > *évènement en est un exemple parfait.

Nous pourrons aussi générer des erreurs de type linguistique pour certaines erreurs parmi les plus courantes de la langue française:

La construction d'éléments d'erreur

Des règles ont été élaborées afin de construire des éléments de tests négatifs à partir de listes positives (éléments jugées corrects). Ces listes pourront servir aux tests à effectuer dans le cadre de l'adéquation des suggestions.


next up previous
Next: L'adéquation des suggestions Up: Méthodes de mesure de Previous: L'exhaustivité

sandra.manzi@issco.unige.ch