Improving the Performance of a Dutch CSR by Modeling
Within-word and Cross-word Pronunciation Variation
Judith M. Kessens, Mirjam Wester, Helmer Strik (1999)
A2RT,
Dept. of Language & Speech, University of Nijmegen
P.O. Box 9103, 6500 HD Nijmegen, The Netherlands
Speech Communication, Vol. 29, No. 2-4, pp. 193-207.
Improving the Performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation
Abstract
This article describes how the performance of a Dutch continuous speech recognizer was
improved by modeling pronunciation variation. We propose a general procedure for modeling
pronunciation variation. In short, it consists of adding pronunciation variants to the lexicon,
retraining phone models and using language models to which the pronunciation variants have been
added. First, within-word pronunciation variants were generated by applying a set of five optional
phonological rules to the words in the baseline lexicon. Next, a limited number of cross-word
processes were modeled, using two different methods. In the first approach, cross-word processes
were modeled by directly adding the cross-word variants to the lexicon, and in the second approach
this was done by using multi-words. Finally, the combination of the within-word method with the
two cross-word methods was tested.
The word error rate (WER) measured for the baseline system was 12.75%. Compared to the
baseline, a small but statistically significant improvement of 0.68% in WER was measured for the
within-word method, whereas both cross-word methods in isolation led to small, non-significant
improvements. The combination of the within-word method and cross-word method 2 led to the best
result: an absolute improvement of 1.12% in WER was found compared to the baseline, which is a
relative improvement of 8.8% in WER.
Zusammenfassung
Dieser Artikel beschreibt, wie die Leistung eines automatischen Spracherkenners, der
niederländische gesprochene Sprache erkennt, mit Hilfe der Modellierung von Aussprachevarianten
verbessert wurde. Für diese Modellformung wird eine allgemeine Prozedur vorgeschlagen, die - kurz
gesagt - darin besteht, dem Lexikon Aussprachevarianten hinzuzufügen, die Phonmodelle erneut
einer Lernphase zu unterziehen und Sprachmodelle dabei zu verwenden, in denen die
Aussprachevarianten mithineinbezogen wurden. Durch Anwendung einer Gruppe von fünf
optionalen phonologischen Regeln wurden im Basislexikon zunächst Aussprachevarianten innerhalb
von Wörtern generiert. Dann wurde mit Hilfe zweier Methoden eine begrenzte Anzahl von
Sandhiprozessen (Prozesse auf Wordgrenzen) modelliert. Die erste bestand darin, die
Sandhivarianten direkt dem Lexikon hinzuzufügen und bei der zweiten wurden Multiwörter
gebraucht. Letztendlich wurden die wortinternen Ausprachevarianten mit den zwei Sandhivarianten
kombiniert getestet.
Die Basisleistung des Spracherkenners, d.h. ohne Anwendung des Modells der
Aussprachevariation, betrug 12.75 % "word error rate" (WER). Bei Anwendung der wortinternen
Aussprachevarianten wurde eine geringe, aber statistisch signifikante Verbesserung von 0.68 %
WER gemessen. Die Anwendung der zwei Sandhimodelle hingegen ergab einen sehr kleinen, nicht
signifikanten Verbesserung. Die Kombination des wortinternen Modells mit dem zweiten
Sandhimodell hingegen ergab schließlich das beste Ergebnis: eine absolute Verbesserung von 1.12
% WER, was einer relativen Verbesserung von 8.8 % WER entspricht.
Résumé
Cet article décrit comment les performances d'un reconnaisseur de parole continue (CSR) pour le
néerlandais ont été améliorées en modelant la variation de prononciation. Nous proposons une
procédure générale pour modeler cette variation. En bref, elle consiste à ajouter des variantes de
prononciation au lexique et dans le ré-apprentissage des modèles de phones en utilisant des modèles
de langage auxquels les variantes de prononciation ont été ajoutées. D'abord, des variantes de
prononciation à l'intérieur de mot ont été produites en appliquant un ensemble de cinq règles
phonologiques optionnelles aux mots dans le lexique de base. Ensuite, un nombre limité de
processus entre-mots ont été modelés, en utilisant deux méthodes différentes. Dans la première
approche, des processus entre-mots ont été modelés en ajoutant directement les variantes
"entre-mots" au lexique, et dans la deuxième approche ceci a été fait en utilisant des
"mots-multiples". En conclusion, la combinaison de la méthode qui se limite aux processus à
l'intérieur de mot avec les deux méthodes "entre-mots" a été testée.
La performance de base était un taux d'erreur de 12,75% mots (WER); comparée à cette
performance de base, une amélioration petite mais significative de 0,68% dans WER a été obtenue
avec la méthode 'à l'intérieur de mot', tandis que les deux méthodes d'entre-mots en isolation ont
mené à des petites améliorations non significatives. La combinaison de la méthode "à l'intérieur de
mot" avec la méthode 2 "entre-mots" a mené au meilleur résultat: une amélioration absolue de
1,12% dans le WER a été trouvée comparée à la ligne de base, qui est une amélioration relative de
8,8% dans le WER.
References
Baayen, H., 1991. De CELEX lexicale databank. Forum der Letteren 32(3), 221-231.
Booij, G., 1995. The Phonology of Dutch. Clarendon Press, Oxford.
Cohen, M.H., 1989. Phonological Structures for Speech Recognition. Ph.D. dissertation, University
of California, Berkeley.
Cohen, P.S., Mercer, R.L., 1974. The Phonological Component of an Automatic Speech-
Recognition System. In: Erman, L. (1997), Proceedings of the IEEE Symposium on Speech
Recognition, Carnegie-Mellon University, Pittsburgh Pa., 15-19 April 1974, pp.177-187.
Cremelie, N., Martens, J.-P., 1998. In search of pronunciation rules. In: Strik, H., Kessens, J.M.,
Wester, M. (Eds.), Proceedings of the ESCA Workshop "Modeling Pronunciation Variation
for Automatic Speech Recognition", Rolduc, Kerkrade, 4-6 May 1998, A2RT, University of
Nijmegen, pp.23-27.
Cucchiarini, C., van den Heuvel, H., 1995. /r/ deletion in Standard Dutch. In: Strik et al. (Eds.),
Proceedings of the Dept. of Language & Speech, University of Nijmegen, Vol. 19, pp. 59-65.
Kerkhoff, J., Rietveld, T., 1994. Prosody in Niros with Fonpars and Alfeios. In: de Haan and
Oostdijk (Eds.), Proceedings of the Dept. of Language & Speech, Univ. of Nijmegen, Vol.18,
pp. 107-119.
Kessens, J.M., Wester, M., 1997. Improving Recognition Performance by Modeling Pronunciation
Variation. Proceedings of the CLS opening Academic Year '97-'98, pp. 1-19.
Lamel, L.F., Adda, G., 1996. On Designing Pronunciation Lexica for Large Vocabulary Continuous
Speech Recognition. Proceedings of ICSLP-96, Philadelphia, pp. 6-9.
Perennou, G., Brieussel-Pousse, L., 1998. Phonological component in automatic speech recognition.
In: Strik, H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the ESCA Workshop
"Modeling Pronunciation Variation for Automatic Speech Recognition", Rolduc, Kerkrade,
4-6 May 1998, A2RT, University of Nijmegen, pp. 91-96.
Steinbiss, V., Ney, H., Haeb-Umbach, R., Tran, B.-H., Essen, U., Kneser, R., Oerder, M., Meier, H.-G., Aubert, X., Dugast, C., Geller, D., 1993. The Philips Research System for Large-Vocabulary Continuous-Speech Recognition. Proceedings of the ESCA Third European
Conference on Speech Communication and Technology: EUROSPEECH '93, Berlin, pp.
2125-2128.
Strik, H., Cucchiarini, C., 1998. Modeling Pronunciation Variation for ASR: Overview and
Comparison of Methods. In: Strik, H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the
ESCA Workshop "Modeling Pronunciation Variation for Automatic Speech Recognition",
Rolduc, Kerkrade, 4-6 May 1998, A2RT, University of Nijmegen, pp. 137-144.
Strik, H., Russel, A., van den Heuvel, H., Cucchiarini C., Boves, L., 1997. A Spoken Dialogue
System for the Dutch Public Transport Information Service. Int. Journal of Speech
Technology, Vol. 2, No. 2, 119-129.
Wiseman, R., Downey, S., 1998. Dynamic and static improvements to lexical baseforms. In: Strik,
H., Kessens, J.M., Wester, M. (Eds.), Proceedings of the ESCA Workshop "Modeling
Pronunciation Variation for Automatic Speech Recognition", Rolduc, Kerkrade, 4-6 May
1998, A2RT, University of Nijmegen, pp. 157-162.
Footnotes:
1 http://www2.echo.lu/langeng/projects/onomastica/
2 http://www.phon.ucl.ac.uk/home/sampa/dutch.htm
|