Travail de fin d'étude (2002)

Etude des mesures de confiance

dans le traitement de la parole

avec application en logopédie

 

réalisé par Sébastien Poitoux

 

 

1.Résumé

Le travail discuté dans ma thèse consistait à automatiser un test bien connu en logopédie appelé l'épreuve de répétition de syllabes sans signification de Borel- Maisonny. Ce test permet à des experts d’évaluer les capacités phonologiques et de mémorisation des jeunes enfants, afin de détecter rapidement chez eux des dysphasies et dyslexies éventuelles. Après avoir demandé à chaque enfant de répéter une séquence de mots bien précise, le logopède assigne un score fonction du nombre de phonèmes correctement prononcés. 

En vue d’informatiser ce test, il était donc nécessaire d’adapter un système complet de reconnaissance automatique de la parole, afin de pouvoir vérifier que le mot est correctement prononcé et, si possible, d’évaluer la qualité de sa prononciation. Dans notre cas, cela faisait donc appel à un test d’hypothèse estimant le niveau de confiance du résultat de la reconnaissance, tant au niveau du mot qu’au niveau du phonème. 

Etant le premier à travailler sur ce problème à l’EPFL, ce travail m’a demandé et permis de développer toute une chaîne de reconnaissance de la parole, allant de l’enregistrement des bases de données (contenant uniquement des enfants testés en logopédie), leur traitement, l’entraînement de modèles phonétiques, et l’évaluation préliminaire du système. Nous avons également commencé à étudier et évaluer de nouvelles techniques d’évaluation du niveau de confiance, en vue de la génération des scores logopédiques. 

Dans notre cas, le système de reconnaissance utilisé était un modèle hybride HMM/ANN, combinant les avantages du modèle de Markov caché (HMM) avec ceux des réseaux de neurones (ANN). L’utilisation du ANN était particulièrement appropriée dans notre cas, étant donné que celui-ci estiment directement des probabilités a posteriori. Dans ce cadre, différents estimateurs de niveaux de confiance, basés sur les rapports de vraisemblance ou sur les probabilités a posteriori, ont été testés. Ces mesures ont également été adaptées au niveau phonétique. Les résultats préliminaires n’étant pas encore satisfaisants, nous nous sommes principalement attardés à différentes études expérimentales qui seront discutées en détail dans le rapport.

2. Introduction

L'application envisagée dans ce projet est dédiée à la logopédie. Elle consiste en l'automatisation du test de répétition des syllabes sans signification de Borel-Maisonny. Ce test concerne l'évaluation de la prononciation au niveau phonétique des enfants de 4 à 10 ans afin de détecter d'éventuelles dyslexie et dysphasie.

Le logopède répète une suite de 48 mots sans signification appelés logatomes dont la longueur est croissante au cours du test. Au début, les mots comptent 2 syllabes pour finir avec 7. 

    Exemple : mouko, sanzibidélu ou nostikazofimalé 

Le but est donc d'adapter les techniques classiques de reconnaissance de la parole au niveau phonétique. Celles-ci reposent sur un schéma en couches permettant de tenir compte des contraintes phonétiques, lexicales et linguistiques. Nous ne retiendrons que le niveau phonétique pour valider la prononciation. 

L'approche utilisée dans le cadre de ce projet est celle d'un modèle hybride HMM/ANN combinant les avantages du réseau de neurones (ANN) et des modèles de Markov cachés (HMM). L'utilisation du réseau de neurones se justifie par la nécessité de juger la prononciation. En effet, les ANN permettent d'estimer la probabilité a posteriori représentant, par définition, la probabilité d'être correcte. Dans ce cas, le mot prononcé étant connu et donc sa suite de phonèmes également, il faut vérifier l'exactitude de sa prononciation et non essayer de reconnaître le mot, et ce, même s'il a été mal prononcé. Pour chaque phonème, un score sera calculé. Sur base de cette valeur, un test d'hypothèse permettra de valider la prononciation du phonème.

 

Modèle hybride HMM / ANN

 

Les détails théoriques peuvent être trouvé dans le rapport 

3. Quelques exemples des expérimentations

3.1. Apprentissage du réseau de neurones

Le réseau de neurones est un classificateur que l'on doit entraîner sur une base dite d'entraînement. Il permet d'estimer la probabilité qu'a une tranche de parole (plus précisement, les vecteurs acoustiques associés) d'être un phonéme donné. On utilise également une seconde base de données,  appelée ensemble de validation qui permet d'éviter le surentraînement sur la première base. 

On peut juger de la qualité de l'apprentissage grâce aux graphiques ci-dessous. Ils mettent en opposition les sorties du réseau contre la probabilité du phonème. L'optimum est représente par la diagonale verte. On observe que l'ensemble d'entraînement est bien qualifié tant dis que l'ensemble de validation est assez dispersé autour de l'optimum. Ceci s'explique par le manque de données. Celui-ci affecte le pouvoir de généralisation du classificateur.

    

Ensemble d'entrainement

Ensemble de validation

3.2. Segmentation avec HMM

Les modéles de Markov cachés (HMM) permettent de faire correspondre les suites de probabilités obtenues à une séquence de phonèmes, formant un mot. Dans notre cas, il ne s'agit que de réaligner les vecteurs composants le mot pour en obtenir une nouvelle segmentation.  Une fois ceci calculé, cette segmentation, meilleur que la précédante permet d'entrainer un autre réseau de neurones, meilleur lui aussi. Ce processus itératif est répèté entre 2 et 5 fois.

La figure à droite montre l'évolution (de haut en bas) de la segmentation du mot "bartin". Les niveaux de gris correspondent aux probabilités estimées par le réseau. Plus la couleur est fonçée, plus la probabilité est élevée.  Le chemin blanc représente la segmentation optimale calculée par programmation dynamique.

Il est remarquable de constater la convergence de l'algorithme.  En effet, au fur et à mesure des itérations, la segmentation se rapproche d'une segmentation réalisé manuellement (réprésentée  en vert).

C'est sur base de cette segmentation et des probabilités a postériori que l'on calcule un niveau de confiance pour la prononciation de chaque phonème. 

 

 

Evolution de la segmentation en 5 itérations du mot "bartin".

3.3. Calcul de seuil par phonème

Afin de se substituer au rôle du logopède, il faut juger de manière binaire de la qualité de chaque phonème composant le mot. Un score est donc calculé sur l'ensemble des probabilités du phonème. La valeur obtenue est comparé au seuil de décision du phonème. Pour chacun d'entre eux, un seuil propre a été calculé. Il est obtenu en prenant l'intersection des gaussiennes représentant les scores obtenus par les phonémes correctement classifiés d'une part et les scores obtenus par les autres phonèmes les plus proches d'autre part. 

Le graphique ci-dessous montre une importante différence entre les scores obtenus pour les phonémes testés et les plus proches compétiteurs ( cet ensemble étant appelé cohorte). Ceci prouve le pouvoir discriminant du réseau de neurones, ce qui justifie donc son choix. 

 

4. Remerciements

Je tiens tout d'abort à remercier M. Leich qui m'a permis de réaliser cet échange inoubliable. Je remercie également M. Dutoit qui m'a fait découvrir et apprécier le monde du traitement de la parole. Je tiens à exprimer ma gratitude envers M. Bourlard pour les nombreuses heures qu'il m'a consacrées. Je remercie également M. Drijgalo pour ses conseils avisés qui m'ont guidés tout au long de ce travail. Merci à Plamel pour son aide informatique. Merci à Anil pour ses échanges d'idées interminables. Merci à Gilles Auric pour son aide technique. Je remercie aussi tous les Catalans qui ont égayé le laboratoire par leur bonne humeur. Merci à Mathieu et Florence qui m'ont soutenu pendant la rédaction. Merci aussi à Alexandre pour son aide dans la correction de ce rapport. Je remercie enfin tous les étudiants de Rhodanie et les Espagnols avec lesquelles j'ai passé des moments formidables. Merci aussi à tous ceux que j'oublie. 

Merci.

5. Rapport 

Rapport complet (pdf)