PEDDS: Pronunciation Error Detection for Dysarthric Speech

Projectleden

  • Drs. L.J. Beijer
  • Mr. P.C.M. Holtus
  • Prof. dr. A.C.M. Rietveld
  • Dr. W.A.J. Strik

Samenvatting:

De doelstelling van dit project is om spraaktechnologie van taalleerders aan te passen en geschikt te maken voor dysartriepatiënten zodat die daarmee zelfstandig hun uitspraak (articulatie) kunnen oefenen. De spraaktechnologie zal ontwikkeld, getest, en geoptimaliseerd worden, en de effectiviteit zal worden geëvalueerd m.b.v. al bestaande spraakdata. Er bestaat reeds spraaktraining op afstand – gerealiseerd in project E-learning Speech Therapy (EST) – maar in die training wordt alleen terugkoppeling gegeven over toonhoogte en intensiteit, globale parameters van spraak die relevant zijn bij een specifieke spraaktherapie van Parkinsonpatiënten: de PLVT, zie Beijer et al. (2010). In het hier voorgestelde project willen wij terugkoppeling geven over de correctheid van realisaties van afzonderlijke, voor dysartriepatiënten relevante en bij hen veel voorkomende fouten. De relevantie van het project ligt in de toenemende prevalentie van CVA en M. Parkinson en de daaruit vloeiende spraakstoornissen (dysartrie).

Projectbeschrijving:

1. Beschrijving van de innovatie: (max. 25 regels)
In dit project zal bestaande spraaktechnologie worden aangepast om ingezet te worden bij de uitspraaktherapie van dysartriepatiënten. De spraaktechnologie die zal worden gebruikt is eerder ontwikkeld voor uitspraaktraining bij leerders van Nederlands als 2e taal. Allereerst werd onderzocht welke Nederlandse klanken problematisch waren voor taalleerders met verschillende moedertalen (Neri et. al 2006, Cucchiarini et al 2009), en voor die problematische klanken is spraaktechnologie ontwikkeld die automatisch kan detecteren of de klanken wel of niet goed uitgesproken zijn. De cursisten produceren spraakuitingen, bijvoorbeeld ze lezen zinnen voor of herhalen door het systeem gesproken uitingen, en krijgen automatisch feedback over de uitspraakfouten die ze maken. De effectiviteit van deze spraaktechnologie is aangetoond in meerdere experimenten (zie o.a. Neri et. al 2006, Cucchiarini et al 2009). Deze producten voor uitspraaktraining blijken een zeer nuttige aanvulling op het face-to-face onderwijs te zijn.
In de voorgestelde innovatie zal soortgelijke spraaktechnologie gebruikt worden voor uitspraaktherapie van dysartriepatiënten: de patiënten produceren spraakuitingen, uitspraakfouten worden automatisch gedetecteerd, en daarover wordt feedback gegeven. Net zoals bij de taalleerders, geeft dit de patiënten de mogelijkheid om te oefenen waar en wanneer ze zelf willen, zo veel als ze zelf willen, waarbij een additioneel voordeel is dat in het algemeen mensen oefenen met een computer (het maken van fouten, en feedback krijgen op die fouten) ervaren als minder bedreigend dan oefenen in de nabijheid van andere mensen (zoals een therapeut, leraar, of medecursisten). Soortgelijke ervaringen zijn opgedaan in de “feasibilitystudie” van het E-learning Speech Therapy (EST) project voor patiënten met M. Parkinson (Beijer et al. 2010): de betrokken patiënt bleek zeer tevreden te zijn over de beschikbaarheid van de trainingsfaciliteit op momenten die hij zelf bepaalde. In het ESTproject wordt echter alleen terugkoppeling gegeven over globale spraakparameters (nl. toonhoogte en intensiteit). De spraaktechnologie die in het huidige project aangepast zal worden, zal het mogelijk maken om daarnaast ook feedback te geven over verkeerd uitgesproken klanken, zodat patiënten ook daarmee zelfstandig kunnen oefenen.

2. Beschrijving van het einddoel van het project: Welke nieuwe kennis, producten en ervaringen levert het op? (max. 25 regels)
Nieuw product: De doelstelling van dit project is om spraaktechnologie van taalleerders aan te passen en geschikt te maken voor dysartriepatiënten zodat die daarmee zelfstandig hun uitspraak (articulatie) kunnen oefenen. De spraaktechnologie zal ontwikkeld, getest, en geoptimaliseerd worden, en de effectiviteit zal worden geëvalueerd m.b.v. al bestaande spraakdata.
In het bovengenoemde project E-learning Speech Therapy (EST) wordt alleen terugkoppeling gegeven over toonhoogte en intensiteit, globale parameters van spraak die relevant zijn bij een specifieke spraaktherapie van Parkinsonpatiënten: de PLVT, zie de Swart et al. (2003) en Beijer et al. (2010). In het hier voorgestelde project willen wij terugkoppeling geven over de correctheid van realisaties van afzonderlijke, voor dysartriepatiënten relevante en bij hen veel voorkomende fouten. De relevantie van het project ligt in de toenemende prevalentie van CVA en M. Parkinson en de daaruit vloeiende spraakstoornissen (dysartrie).
Het uiteindelijke doel is een systeem, een web-applicatie, waar patiënten kunnen inloggen, waar en wanneer ze dat willen, en zo vaak als ze dat willen. De technologie die in dit project ontwikkeld wordt, de classificatoren voor het detecteren van uitspraakfouten, kan bijvoorbeeld toegevoegd worden aan de al bestaande web-applicatie voor EST. Dit zal het mogelijk maken dat de intensiteit van de therapie verhoogd wordt, en dus ook de effectiviteit, terwijl er aan de andere kant een kostenbesparing gerealiseerd kan worden omdat patiënten meer zelfstandig kunnen oefenen.

Nieuwe kennis en ervaringen:
Na voltooiing van het project zal er meer kennis beschikbaar zijn over vele onderwerpen. Allereerst zullen we meer weten over uitspraakfouten die veel voorkomen bij dysartriepatiënten en belemmerend zijn bij de communicatie. Er zal ook expertise ontwikkeld zijn over de inzet van spraaktechnologie bij spraaktherapie. Tevens zal duidelijk worden wat mogelijke uitbreidingsmogelijkheden zijn.

3. Relevantie van het project: Hoe draagt het project bij aan het vergroten van het innovatievermogen van revalidatiecentra en revalidatie afdelingen? Hoe draagt het project bij aan de kwaliteit van zorg? (max. 25 regels)
Een frequent voorkomend invaliderend communicatieprobleem is dysartrie. Dysartrie is een verworven spraakstoornis die het gevolg kan zijn van een cerebrovasculair accident (CVA) of de ziekte van Parkinson. Deze pathologieën leiden tot een verstoorde controle van de spieren die betrokken zijn bij onder andere de uitspraak (‘articulatie’). Dysartrie heeft invloed op een groot aantal spraakkenmerken (Kent, Weismer, Kent, Vorperian & Duffy, 1999), waaronder de realisatie van klinkers en medeklinkers. De incidentie/jaar van een CVA in Nederland bedraagt ongeveer 40000 mensen; dysartrie is aanwezig bij circa 35% van de CVA-patiënten en blijft bij 15% ook voor langere tijd bestaan (vlg. Standaard M81, Nederlands Huisartsen Genootschap). De verwachting is dat de prevalentie van CVA’s tussen 2005 en 2025 met 44% zal stijgen. De incidentie van de ziekte van Parkinson – waarbij vaak ook een vorm van dysartrie optreedt – varieert van 0.3 per 1000 in de leeftijd van 55-65 tot 4.4/1000 in de leeftijd boven de 80. De toenemende vergrijzing zal ongetwijfeld leiden tot grotere incidenties van CVA’s en prevalenties van de ziekte van Parkinson, en bijgevolg ook tot een grotere prevalentie van dysartrie en een grotere druk op de gezondheidszorg, zie ook van Campenhausen et al. (2005).
Patiënten met dysartrie als gevolg van een CVA of M. Parkinson krijgen vaak gedurende relatief korte tijd spraaktherapie, gegeven door logopedisten. Het volgen van spraaktherapie is voor velen van hen echter een zware belasting, niet alleen in termen van de reistijd en de tijd die de therapie vergt, maar ook wat betreft het tijdstip waarop de therapie plaatsvindt, meestal tijdens de werkuren, wat een extra belasting is voor mensen die nog in het arbeidsproces zijn opgenomen. Het zal duidelijk zijn dat het volgen van face-to-face sessies bij een logopedist(e) beperkt is door kostenoverwegingen en overwegingen van beschikbaarheid van logopedische hulp. De beperking van het aantal face-to-face sessies heeft een belangrijke negatief effect: een beperking van de nodige intensiteit van oefening (Teasell & Kalra, 2004).

4. Plan van aanpak voor het project: welke activiteiten worden ondernomen, wat is de planning en welke partijen nemen deel aan de projectgroep (aansturing en samenwerking)? (max. 75 regels)
De werkzaamheden die uitgevoerd zullen worden in het huidige project kunnen globaal onderverdeeld worden in de volgende twee (groepen van) activiteiten. Deze activiteiten zullen grotendeels uitgevoerd worden op een manier analoog aan de succesvolle procedure die gehanteerd is bij uitspraakfouten van buitenlanders die Nederlands leren (Neri et. al 2006, Cucchiarini et al 2009).

Activiteit 1. Uitspraakfouten: criteria, annotatie, en selectie van de fouten.
Allereerst zal een lijst met criteria opgesteld worden voor de selectie van fouten. Mogelijke criteria zijn:
1. Ze hebben een grote invloed op verstaanbaarheid en communicatie;
2. Ze zijn duidelijk waarneembaar (“salient”);
3. Ze komen frequent voor;
4. Ze zijn aanwezig bij vele sprekers;
5. Ze zijn persistent;
6. Robuuste automatische detectie met voldoende betrouwbaarheid is mogelijk
7. Er kan duidelijke feedback over gegeven worden
Vervolgens zal de literatuur bestudeerd worden, om te onderzoeken wat voor relevante informatie daarin te vinden is. Daarnaast zullen spraakdata van dysartriepatiënten bestudeerd worden. De SMK heeft al opnames van dergelijke spraakdata. In deze data zullen annotaties van uitspraakfouten aangebracht worden. Deze annotatietaken zullen worden uitgevoerd door studentassistenten. CLST heeft ruime ervaring met de annotatie van spraakdata, waarvoor in het verleden ook meestal studentassistenten gebruikt werden. Na afloop van de literatuur- en de data-studie zal een definitieve lijst van criteria opgesteld worden, en zal een selectie gemaakt worden van de uitspraakfouten.

Activiteit 2. Aanpassen en implementeren van de spraaktechnologie, en testen van de effectiviteit.
Voor de geselecteerde uitspraakfouten zullen classificatoren ontwikkeld worden die automatisch kunnen detecteren of de klanken correct of fout uitgesproken zijn. Bestaande classificatoren voor detectie van uitspraakfouten bij taalleerders zullen hiervoor aangepast, getest, en geoptimaliseerd worden. Hiervoor zal een, bij de partners aanwezige, mix van expertise gebruikt worden op het gebied van spraaktechnologie, fonetiek, machine learning, en statistiek.
Voor de automatische detectie van uitspraakfouten worden meestal methodes gebruikt die voornamelijk gebaseerd zijn op een mix van spraaktechnologie en machine learning. Recent onderzoek heeft echter aangetoond dat het nuttig kan zijn om expliciet gebruik te maken van fonetische kennis over de klanken, met name over de verschillen tussen de correcte en foute realisaties van die klanken (Strik et al., 2009). Bijvoorbeeld als een veel gemaakte fout is dat bij een plofklank (medeklinkers zoals ‘p’, ‘t’ en ‘k’) de ‘ruisburst’ (de ‘plof’, ‘[ex]plosie’) niet goed genoeg gerealiseerd wordt, en dat de plosief daardoor meer op een fricatief (zoals ‘f’ of ‘g’) gaat lijken, kan dit expliciet opgenomen worden in de classificator. In eerder onderzoek hebben we daarvoor de methode beschreven in Weigelt et al. (1990) grotendeels overgenomen en geïmplementeerd in een algoritme. Dit algoritme is vervolgens getest, en de resultaten van deze meer fonetische methode bleken beter te zijn dan de resultaten van andere methodes (Strik et al., 2009).
De effectiviteit van de ontwikkelde technologie zal uitgebreid geëvalueerd worden. Hiervoor zal gebruik gemaakt worden van de annotaties in bestaande spraakdata (zie hierboven) en van artificieel gegenereerde fouten. Getest zal worden hoe goed de classificatoren er in slagen om automatisch te detecteren of een klank correct of fout is uitgesproken. In het geval van de taalleerders gebeurde dat gemiddeld in ruim 90% van de gevallen. De kwaliteit van de feedback kan echter nog hoger zijn. Allereerst, door alleen feedback te geven voor die gevallen waar de classificatoren een grote(re) mate van betrouwbaarheid hebben dat een gedetecteerde fout daadwerkelijk fout is. En ten tweede, door fouten te selecteren (zie de criteria hierboven) die vaker voorkomen (criteria 3-5). Er is dan meer materiaal om de classificatoren goed te trainen en testen, en uiteindelijk zullen alleen die fouten geselecteerd worden waarvoor robuuste automatische detectie met voldoende betrouwbaarheid is mogelijk (criterium 6), en waarvoor er duidelijke feedback gegeven kan worden (criterium 7). Voor additionele evaluatie van de effectiviteit van de ontwikkelde technologie zie sectie 9.

5. Op welke wijze vindt afstemming met relevante beroepsverenigingen, brancheorganisatie, eventuele expertisecentra plaats? (max. 25 regels)
In Nijmegen worden sinds 2005 onderzoeks- en ontwikkelactiviteiten onplooid in het kader van het ‘Ontwikkelcentrum Spraak- en Taaltechnologie’ (OSTT), oftewel voluit het Ontwikkelcentrum voor de toepassing van Spraak- en Taaltechnologie ten behoeve van spraakpathologie en revalidatie in het algemeen. In dit expertisecentrum werken drie instituten samen: de Radboud Universiteit Nijmegen, de St. Maartenskliniek te Nijmegen en het UMCN St. Radboud (afdeling Revalidatie). Het OSTT is in 2005 door het ministerie van VWS erkend als expertisecentrum. Mede op basis van deze erkenning, is er een relevant netwerk opgebouwd van kennis- en zorginstellingen en bedrijven in en buiten de regio Arnhem-Nijmegen. De samenwerking tussen deze instellingen in het OSTT-netwerk biedt een unieke combinatie van expertise op alle relevante terreinen t.b.v. het primaire doel van het OSTT: implementatie van nieuwe spraak- en taaltechnologieën voor mensen met communicatieve beperkingen a.g.v. verworven neurologisch letsel. Professionals op het terrein van de spraak- en taalpathologie, spraak- en taaltechnologie, kunstmatige intelligente (o.a. intelligente vraag-antwoordsystemen), ICT en revalidatiegeneeskunde vinden elkaar en werken samen. Mede daardoor wordt de mogelijkheid geboden om de te vaak ervaren kloof tussen vraag en aanbod van (TST)-technologie te verkleinen. De Sint Maartenskliniek draagt hieraan tevens bij door een actieve rol in de commissie ‘markteducatie’ van de Nederlandse Vereniging voor Taal en Spraaktechnologie (www.notas.nl).
Een van de projecten binnen het OSTT betreft de E-learning Speech Therapy (EST), waarmee in 2008 de Nationale Zorgvernieuwingsprijs werd gewonnen. Met het prijzengeld kon EST worden geïmplementeerd in de regio Arnhem-Nijmegen, en werden waardevolle contacten gelegd. Contacten met de afdeling spraak- en taaltechnologie en kunstmatige intelligentie op de Radboud Universiteit leidden tot ideeën voor verbeteringen van EST, waaronder de uitbreiding van feedback over spraak en aanpassingen van de visualisatie hiervan. Voortvloeiend uit de projectactiviteiten, zijn in de loop van de afgelopen twee jaren samenwerkingsverbanden tot stand gekomen tussen de Radbouduniversiteit, spin-off bedrijven van de universiteit, de Sint Maartenskliniek en de revalidatieafdeling van het UMC St. Radboud.

6. Op welke wijze worden cliënten(organisaties) betrokken? (max. 25 regels)
Vanuit de ‘gebruikerskant’ zal een adviescommissie betrokken zijn bij dit project. Hierin nemen zitting afgevaardigden van
- de CVA-patiëntvereniging
- de Parkinsonpatiëntenvereniging
- patiëntenadviesraad Sint Maartenskliniek
- de beroepsbereniging van logopedisten, de Nederlandse Vereniging voor Logopedie en Foniatrie (NVLF)
De adviescommissie, met daarin vertegenwoordigd cliëntorganisaties, ontvangt het plan van aanpak voorafgaand aan het project. Zij brengt op basis daarvan advies uit over eventuele gewenste wijzigingen vanuit patiëntenperspectief. Gedurende de loop van het project, krijgt de adviescommissie tussentijdse rapportages om het projectverloop te kunnen volgen, en desgewenst adviezen uit te brengen met betrekking tot wijzigingen in de projectaanpak.
Patienten die actief participeren in het project, worden in de gelegenheid gesteld om hun ervaringen met de feedback over spraak, als hulpmiddel bij spraaktraining, te evalueren. De uitkomsten van deze evaluaties vormen het uitgangspunt voor wijzigingen in de wijze waarop feedback wordt geven.

7. Op welke wijze vindt afstemming met relevante beroepsverenigingen, brancheorganisatie, eventuele expertisecentra plaats? (max. 25 regels)
Zoals eerder gezegd loopt in Nijmegen een “E-learning Speech Therapy (EST)” project onder de noemer van het OSTT, het Ontwikkelcentrum voor de toepassing van Spraak- en Taaltechnologie ten behoeve van spraakpathologie en revalidatie in het algemeen. In dit expertisecentrum werken drie instituten samen: de Radboud Universiteit Nijmegen, de St. Maartenskliniek te Nijmegen en het UMCN St. Radboud. Het OSTT is door het ministerie van VWS erkend als expertisecentrum.

8. Achtergrondinformatie: zijn er door leden van de projectgroep eerder activiteiten uitgevoerd op het gebied van innovatie? (max. 15 regels)
Medio 2008 werd aan het project E-learning Spraaktherapie de Nationale Zorgvernieuwingsprijs toegekend. Dit project wordt uitgevoerd door een van de leden van het projectteam, mw. drs. L. Beijer van de Sint Maartenskliniek, in samenwerking met een ander lid van het projectteam, Prof.dr. A. Rietveld, die werkzaam is bij de Sint Maartenskliniek en de RU Nijmegen. Prof. Rietveld is coördinator van de masteropleiding Taal- en Spraakpathologie, en methodoloog op het gebied van onderzoek in de spraak- en taalpathologie en communicatieve beperkingen (zie ook Rietveld et al., 2005).
Dr. H. Strik, van diezelfde universiteit en het derde lid van het projectteam heeft in samenwerking met collega’s van de RU een aantal jaren geleden – in 2002 – als eerste voor het Nederlands een systeem ontwikkeld voor de automatische herkenning van dysartrische spraak (Sanders et al., 2002). Hij is ook betrokken (geweest) bij vele projecten over de ontwikkeling van spraaktechnologie van taalleerders. De in die projecten ontwikkelde technologie zal, in aangepaste vorm, gebruikt worden in het hier voorgestelde project. Dr. H. Strik is een internationaal expert of het gebied van ‘Speech and Language Technology for Education’ (SLaTE), lid van de zgn. ISCA-SIG SLaTE (http://www.sigslate.org), en mede-organisator van een internationale workshop over dit onderwerp in Venetië in augustus 2011 (http://project.cgm.unive.it/events/SLaTE2011/).

9. Toepasbaarheid van de te implementeren innovatie: geef hierbij aan hoe de effecten van de innovatie geëvalueerd worden op het niveau van: de cliënt, de professional, management en beleid (max. 25 regels)
De evaluatie van de effectiviteit van de ontwikkelde technologie zal allereerst uitgevoerd worden zoals beschreven in sectie 4. Daarnaast zullen we de effectiviteit van de innovatie verder evalueren, zowel in vervolgprojecten als in de vorm van Master theses van de 20-30 studenten die jaarlijks afstuderen bij de Master Taal- en Spraak-Pathologie (TSP) van de RU Nijmegen. Net zoals bij de taalleerders het geval is geweest zullen we de effectiviteit van de spraaktechnologie bepalen door groepen patiënten die deze technologie gebruiken te vergelijken met controlegroepen die de technologie niet gebruiken, en te bestuderen wat het effect is op de uitspraak, waarbij we ook de ervaringen van de gebruikers (voor- en nadelen van de innovatie) in kaart zullen brengen. De innovatie zal uiteindelijk geïmplementeerd worden als een website, net zoals het hierboven reeds genoemde EST programma. Een voordeel daarvan is dat alle interacties van de patiënten met het programma opgeslagen kan worden in logboeken. Aldus is het mogelijk om te zien hoe vaak iemand het systeem gebruikt, wat voor oefeningen gedaan zijn, welke fouten (nog) gemaakt worden, wat de vooruitgang is, enz.. Die informatie kan nuttig gebruikt worden bij het plannen van afspraken van patiënten met therapeuten; de logboeken geven dan een nuttig overzicht van de stand van zaken, wat de therapie-effectiviteit zal vergroten. Onderzocht zal worden in hoeverre deze mogelijkheden optimaal benut kunnen worden. Daarnaast zal ook onderzocht worden hoe de zojuist genoemde voordelen (voor patiënten en therapeuten) zich verhouden tot de tijds- en kostenbesparingen voor de therapeuten en revalidatieinstellingen.

Referenties

+ Beijer, L., Rietveld, T., van Beers, M, Slangen, R., van den Heuvel, H., de Swart, B. & Geurts, S. (2010a). E-learning based Speech Therapy (EST) as a web application for speech training. Telemedicine and e-Health, 16(2), 177-180.
+ Beijer, L., Rietveld, T., Hoskam, V., Geurts, A. & de Swart, B. (2010b). Evaluating the Feasibility and the Potential Efficiacy of e-Learning-Based Speech Therapy for Speech Training in Dysarthric Patients with Parkinson’s Disease: A Case Study. Telemedicine and e-Health, 16(6), 732-738.
+ Cucchiarini, C., Neri, A., Strik, H. (2009). Oral Proficiency Training in Dutch L2: the Contribution of ASR-based Corrective Feedback. Speech Communication, Volume 51, Issue 10, October 2009, Pages 853-863.
+ Kent, R.D., Weismer, G., Kent, J.F., Vorperian, H.K. & Duffy, J.R. (1999). Acoustic studies of dysarthric speech: methods, progress, and potential. Journal of Communication Disorders, 32, 141-186.
+ Neri, A., Cucchiarini, C. & Strik, H. (2006). Selecting segmental errors in L2 Dutch for optimal pronunciation training. International Review of Applied Linguistics, 44, 357-404.
+ Rietveld, T. & Stoltenberg, I. (2005). Taal- en spraaktechnologie en communicatieve beperkingen. Rapport uitgebracht in opdracht van de Nederlandse Taalunie; 52 blz.
+ Sanders,E. Ruiter, E., Beijer, L. & Strik, H. (2002). Automatic recognition of Dutch dysarthric speech: A pilot study. Proceedings of ICSLP-2002, Denver, USA, pp. 661-664.
+ Strik, H., Truong, K., de Wet, F., Cucchiarini, C. (2009). Comparing different approaches for automatic pronunciation error detection. Speech Communication, Volume 51, Issue 10, October 2009, Pages 845-852.
+ Swart, B.J.M. de, Willemse, S.C., Maassen, B.A.M. & Horstink, M.W.I.M. (2003). Improvement of voicing in patients with Parkinson’s disease by speech therapy. Neurology, 60, 498-500.
+ Teasell, R.W. & Kalra, L. (2004). Advances in stroke 2003. What’s new in stroke rehabilitation? Stroke, February, 383-385.
+ Von Campenhausen S, Bornschein B, Wick R, Botzel K, Sampaio C, Poewe C, et al. (2005). Prevalence and incidence of Parkinson’s disease in Europe. European Neuropsychopharmacology, 15(4): 473-490.
+ Weigelt, L.F., Sadoff, S.J., Miller, J.D. (1990). Plosive/fricative distinction: the voiceless case. J. Acoust. Soc. Am. 87, 2729-2737.