home > publications > a65b
Contact
Improving the Performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation
Judith M. Kessens, Mirjam Wester, Helmer Strik (1999)
A2RT, Dept. of Language & Speech, University of Nijmegen
P.O. Box 9103, 6500 HD Nijmegen, The Netherlands

Speech Communication, Vol. 29, No. 2-4, pp. 193-207.

Improving the Performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation

Abstract

This article describes how the performance of a Dutch continuous speech recognizer was improved by modeling pronunciation variation. We propose a general procedure for modeling pronunciation variation. In short, it consists of adding pronunciation variants to the lexicon, retraining phone models and using language models to which the pronunciation variants have been added. First, within-word pronunciation variants were generated by applying a set of five optional phonological rules to the words in the baseline lexicon. Next, a limited number of cross-word processes were modeled, using two different methods. In the first approach, cross-word processes were modeled by directly adding the cross-word variants to the lexicon, and in the second approach this was done by using multi-words. Finally, the combination of the within-word method with the two cross-word methods was tested.

The word error rate (WER) measured for the baseline system was 12.75%. Compared to the baseline, a small but statistically significant improvement of 0.68% in WER was measured for the within-word method, whereas both cross-word methods in isolation led to small, non-significant improvements. The combination of the within-word method and cross-word method 2 led to the best result: an absolute improvement of 1.12% in WER was found compared to the baseline, which is a relative improvement of 8.8% in WER.


Zusammenfassung

Dieser Artikel beschreibt, wie die Leistung eines automatischen Spracherkenners, der niederländische gesprochene Sprache erkennt, mit Hilfe der Modellierung von Aussprachevarianten verbessert wurde. Für diese Modellformung wird eine allgemeine Prozedur vorgeschlagen, die - kurz gesagt - darin besteht, dem Lexikon Aussprachevarianten hinzuzufügen, die Phonmodelle erneut einer Lernphase zu unterziehen und Sprachmodelle dabei zu verwenden, in denen die Aussprachevarianten mithineinbezogen wurden. Durch Anwendung einer Gruppe von fünf optionalen phonologischen Regeln wurden im Basislexikon zunächst Aussprachevarianten innerhalb von Wörtern generiert. Dann wurde mit Hilfe zweier Methoden eine begrenzte Anzahl von Sandhiprozessen (Prozesse auf Wordgrenzen) modelliert. Die erste bestand darin, die Sandhivarianten direkt dem Lexikon hinzuzufügen und bei der zweiten wurden Multiwörter gebraucht. Letztendlich wurden die wortinternen Ausprachevarianten mit den zwei Sandhivarianten kombiniert getestet.


Die Basisleistung des Spracherkenners, d.h. ohne Anwendung des Modells der Aussprachevariation, betrug 12.75 % "word error rate" (WER). Bei Anwendung der wortinternen Aussprachevarianten wurde eine geringe, aber statistisch signifikante Verbesserung von 0.68 % WER gemessen. Die Anwendung der zwei Sandhimodelle hingegen ergab einen sehr kleinen, nicht signifikanten Verbesserung. Die Kombination des wortinternen Modells mit dem zweiten Sandhimodell hingegen ergab schließlich das beste Ergebnis: eine absolute Verbesserung von 1.12 % WER, was einer relativen Verbesserung von 8.8 % WER entspricht.


Résumé

Cet article décrit comment les performances d'un reconnaisseur de parole continue (CSR) pour le néerlandais ont été améliorées en modelant la variation de prononciation. Nous proposons une procédure générale pour modeler cette variation. En bref, elle consiste à ajouter des variantes de prononciation au lexique et dans le ré-apprentissage des modèles de phones en utilisant des modèles de langage auxquels les variantes de prononciation ont été ajoutées. D'abord, des variantes de prononciation à l'intérieur de mot ont été produites en appliquant un ensemble de cinq règles phonologiques optionnelles aux mots dans le lexique de base. Ensuite, un nombre limité de processus entre-mots ont été modelés, en utilisant deux méthodes différentes. Dans la première approche, des processus entre-mots ont été modelés en ajoutant directement les variantes "entre-mots" au lexique, et dans la deuxième approche ceci a été fait en utilisant des "mots-multiples". En conclusion, la combinaison de la méthode qui se limite aux processus à l'intérieur de mot avec les deux méthodes "entre-mots" a été testée.

La performance de base était un taux d'erreur de 12,75% mots (WER); comparée à cette performance de base, une amélioration petite mais significative de 0,68% dans WER a été obtenue avec la méthode 'à l'intérieur de mot', tandis que les deux méthodes d'entre-mots en isolation ont mené à des petites améliorations non significatives. La combinaison de la méthode "à l'intérieur de mot" avec la méthode 2 "entre-mots" a mené au meilleur résultat: une amélioration absolue de 1,12% dans le WER a été trouvée comparée à la ligne de base, qui est une amélioration relative de 8,8% dans le WER.


References


Baayen, H., 1991. De CELEX lexicale databank. Forum der Letteren 32(3), 221-231.

Booij, G., 1995. The Phonology of Dutch. Clarendon Press, Oxford.

Cohen, M.H., 1989. Phonological Structures for Speech Recognition. Ph.D. dissertation, University of California, Berkeley.

Cohen, P.S., Mercer, R.L., 1974. The Phonological Component of an Automatic Speech- Recognition System. In: Erman, L. (1997), Proceedings of the IEEE Symposium on Speech Recognition, Carnegie-Mellon University, Pittsburgh Pa., 15-19 April 1974, pp.177-187.

Cremelie, N., Martens, J.-P., 1998. In search of pronunciation rules. In: Strik, H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the ESCA Workshop "Modeling Pronunciation Variation for Automatic Speech Recognition", Rolduc, Kerkrade, 4-6 May 1998, A2RT, University of Nijmegen, pp.23-27.

Cucchiarini, C., van den Heuvel, H., 1995. /r/ deletion in Standard Dutch. In: Strik et al. (Eds.), Proceedings of the Dept. of Language & Speech, University of Nijmegen, Vol. 19, pp. 59-65.

Kerkhoff, J., Rietveld, T., 1994. Prosody in Niros with Fonpars and Alfeios. In: de Haan and Oostdijk (Eds.), Proceedings of the Dept. of Language & Speech, Univ. of Nijmegen, Vol.18, pp. 107-119.

Kessens, J.M., Wester, M., 1997. Improving Recognition Performance by Modeling Pronunciation Variation. Proceedings of the CLS opening Academic Year '97-'98, pp. 1-19.

Lamel, L.F., Adda, G., 1996. On Designing Pronunciation Lexica for Large Vocabulary Continuous Speech Recognition. Proceedings of ICSLP-96, Philadelphia, pp. 6-9.

Perennou, G., Brieussel-Pousse, L., 1998. Phonological component in automatic speech recognition. In: Strik, H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the ESCA Workshop "Modeling Pronunciation Variation for Automatic Speech Recognition", Rolduc, Kerkrade, 4-6 May 1998, A2RT, University of Nijmegen, pp. 91-96.

Steinbiss, V., Ney, H., Haeb-Umbach, R., Tran, B.-H., Essen, U., Kneser, R., Oerder, M., Meier, H.-G., Aubert, X., Dugast, C., Geller, D., 1993. The Philips Research System for Large-Vocabulary Continuous-Speech Recognition. Proceedings of the ESCA Third European Conference on Speech Communication and Technology: EUROSPEECH '93, Berlin, pp. 2125-2128.

Strik, H., Cucchiarini, C., 1998. Modeling Pronunciation Variation for ASR: Overview and Comparison of Methods. In: Strik, H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the ESCA Workshop "Modeling Pronunciation Variation for Automatic Speech Recognition", Rolduc, Kerkrade, 4-6 May 1998, A2RT, University of Nijmegen, pp. 137-144.

Strik, H., Russel, A., van den Heuvel, H., Cucchiarini C., Boves, L., 1997. A Spoken Dialogue System for the Dutch Public Transport Information Service. Int. Journal of Speech Technology, Vol. 2, No. 2, 119-129.

Wiseman, R., Downey, S., 1998. Dynamic and static improvements to lexical baseforms. In: Strik, H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the ESCA Workshop "Modeling Pronunciation Variation for Automatic Speech Recognition", Rolduc, Kerkrade, 4-6 May 1998, A2RT, University of Nijmegen, pp. 157-162.



Footnotes:


1 http://www2.echo.lu/langeng/projects/onomastica/


2 http://www.phon.ucl.ac.uk/home/sampa/dutch.htm

Last updated on 22-05-2004