CITO-Senter project Computergestuurde Spreekvaardigheidstoets korte inleiding 3 exp. 1. voorgelezen spraak (60 NNS, 16 NS & 4 SDS) 2. spontane spraak, antwoorden op open vragen (60 NNS) 3. spontane spraak, opdrachten (180 NNS) 1&2 : experimenteren; op basis van spraak & transc. 3 : 'n toets maken; op basis van spraak alleen Deze presentatie gaat alleen over exp. 3. doelen exp. 3: 1e welke (antwoorden op) items kunnen autom. verwerkt worden? (mbv. ASH-technologie) 2e demo versie materiaal 6 boekjes per boekje 30 pp.-en (& cassettes) spraak transc. nu voor een gedeelte (6 x 3 pp.-en) later evt. voor alles (6 x 30 pp.-en) items Zo gekozen dat het aantal correcte antwoorden beperkt is 10 soorten items: + zin voorlezen + zin nazeggen + maak zin af met hyperoniem + maak zin af met antoniem + meerkeuze_aanvullen + meerkeuze_pragmatisch + meerkeuze_synoniem + samentrekken + maak van 2 zinnen 1 zin + zin voorlezen en afmaken Hieronder staat per item 1 voorbeeld, met per item: - instructie - transc. van antwoorden - lijst met correcte antwoorden zin voorlezen Lees de zinnen voor. VB: in Nederland wonen veel oude mensen antwoorden 0:[int] [sta] in Nederland [spk] wonen [spk] wel ou oude mensen 1:[sta] in Nederland wonen veel oude mensen [spk] 1:[sta] in Nederland woont veel oud mensen [int] zin nazeggen U hoort steeds een zin. Zeg de zin na. U heeft voor iedere zin 12 seconden de tijd. VB: iedere ochtend om zeven uur gaat bij Bart de wekker af antwoorden 1:[sta] [int] iedere ochtend bij zeven uur gaat bij Bart de wekker af 0:[sta] hiederen horten in eten uur 1:[sta] [int] iedere ochtend om zeven uur gaat de w bij Bart de wakker a [spk] shit maak zin af met hyperoniem Maak de zin af. Lees de zin. Er is EEN woord weg. Bedenk welk woord weg is. Noem dan het woord dat weg is. U moet NIET de hele zin hardop voorlezen. U mag maar 1 woord noemen. VB: De fiets, de trein en het vliegtuig zijn voorbeelden van ... antwoorden 0:[sta] transporten 0:[sta] [int] 1:[sta] 0:[sta] openbare [???} 1:verkeer [sta] 0:[sta] f 0:[sta] [spk] 1:[int] fffffoe foervoorink vervoerink 0:[int] [sta] voortbewegings 1:[int] [sta] 1:poer [sta] 1:[sta] voertuig 0:[sta] remoer [spk] correcte antwoorden (volgens CITO) 52132 verkeer, voor verkees vervoer, vervoeren, voor vervoer, voertuig, voertuigen vervoermiddel, vervoermiddelen transport, transporteren, transporten,transportmiddelen reizen wagen maak zin af met antoniem (U ziet een plaatje en u hoort een zin...) U hoort een zin. Lees de zin. Er is EEN woord weg. Bedenk welk woord weg is. Noem dan het woord dat weg is. U moet NIET de hele zin hardop voorlezen. U mag maar EEN woord noemen. VB: Deze jongen rijdt niet langzaam, maar juist ... antwoorden 1:[sta] 1:[sta] 1:[sta] hard sne 1:[sta] hard 0:[sta] 1:[sta] tnel snel [spk] correcte antwoorden (volgens CITO) 52079 hard snel te snel vlug rijdt snel te hard rijdt erg snel meerkeuze_aanvullen U hoort steeds een zin. Maak de zin af. Kies EEN van de antwoorden A, B of C. Noem eerst de letter van het antwoord dat u kiest. Lees daarna het antwoord voor. VB: Mevrouw van Tiel heeft nooit tijd. Zij heeft het altijd erg ... A bezet B druk C haast Antwoorden 1:[sta] [int] b 0:[sta] bezet 1:b druk [sta] [int] 1:[sta] b druk 0:[sta] c haast 1:[sta] [spk] 1:[sta] b druk Correcte antwoorden, 52060 B druk meerkeuze_ pragmatisch Bij elke vraag hoort u eerst WAAR er wordt gepraat. Daarna moet u zeggen welke van de drie zinnen u HET BESTE kunt gebruiken in die situatie. Noem eerst de letter van het antwoord dat u het beste vindt. Lees daarna het antwoord voor. VB: U wilt iets vragen aan uw baas. U weet niet of hij op dat moment tijd voor u heeft. Wat kunt u dan het beste zeggen? A Hoe gaat het met u? B Ik moet even iets vragen. C Mag ik even storen? Antwoorden 1:[sta] c mag ik even storen 0:[sta] b ik moet even iets vragen 1:[int] [sta] c mag ik even storen 1:[sta] c mag ik even storen 0:[sta] b ik moet even iets vragen 1:[int] [sta] c mag ik je even storen 1:[sta] c mag ik even storen [spk] 1:[sta] c mag ik even storen 1:[int] [sta] c mag ik even storen Correcte antwoorden, 52091 C Mag ik even storen? meerkeuze_synoniem U hoort steeds een zin. Kies de zindie hetzelfde betekent. Kies EEN van de antwoorden A, B of C. Noem eerst de letter van het antwoord dat u kiest. Lees daarna het antwoord voor. VB: Hij heeft weinig aan zijn computer. A Hij gebruikt meestal een andere computer B Hij kan niet veel doen met zijn computer C Zijn computer doet het meestal goed Antwoorden 1:[sta] b hij kan niet veel doen met zijn computer [spk] 1:[sta] 1:[sta] b hij kan niet veel doen met zijn computer 1:[sta] b hij kan niet veel doen met zijn computer 0:[sta] [spk] 1:[sta] [spk] b hij kan niet veel doen met zijn computer Correcte antwoorden, 52081 B hij kan niet veel doen met zijn computer samentrekken U leest een zin. Die zin kan korter: u kunt EEN of MEER woorden weglaten. Kunt u de zin korter maken. Let op: het moet wel een goede Nederlandse zin blijven. VB: Frans houdt van Italiaans eten en Freek houdt van Italiaans eten. Antwoorden 0:[int] [sta] [spk] Frans en Freek houdt van Italiaans eten 1:[sta] Frans houdt van Italiaans eten en Freek ook 0:Frans en [fil] [sta] Frans en Freek houen van Italiaanse eten Correcte antwoorden Frans en Freek houden van Italiaans eten Frans houdt van Italiaans eten en Freek ook maak van 2 zinnen 1 zin U ziet in uw boekje twee losse zinnen. U hoort deze zinnen ook op de band. Maak van deze twee zinnen EEN zin. Het begin van de nieuwe, lange zin staat in het boekje. Soms moet de volgorde van de woorden worden veranderd. VB: Janneke spreekt Nederlands. Jeroen spreekt Turks. Janneke spreekt Nederlands EN ... Antwoorden 0:[int] [sta] Jon spreek Turks [spk] nja jook spreek Nederlands en Turks ja [spk] 1:[sta] ze Janneke spreekt Nederlands en Jeroene spreek Turks 0:Jannet spreekt Nederlands die meichoen spreek Turks [int] Correcte antwoorden Janneke spreekt Nederlands en Jeroen (spreekt) Turks zin voorlezen en afmaken Maak de zin af. Lees de zin en kijk naar het plaatje. Lees dan de zin voor en maak de zin af. Wacht met lezen tot u het nummer van de zin hoort. VB: De jongen zit niet op de bank, maar ... Antwoorden 1:[sta] [spk] de jong zit zitte niet op de banke maar in de grond 1:[sta] de jongen zit niet op de bank maar hij zit [fil] voor de bank onder de bank 0:[sta] [spk] de jongen zit niet op de bank maar nach [int] Correcte antwoorden Geen eenduidig correct antwoord: Uit het antwoord blijkt duidelijk dat de jongen op de grond zit / voor de bank zit methode Hoe kunnen we deze antwoorden autom. verwerken? Hoe kunnen we de correcte antwoorden vinden? Welke methodes/technieken kunnen we gebruiken? Problemen & oplossingen : + simultane stoorsignalen (achtergrond spraak, doordruk, ruis, ...) robust ASR (voorlopig niet / standaard) + tussenliggende/sequentiele stoorsignalen (dysfluencies, stoorsignalen) Waar zit het doel woord (frase)? word (phrase) spotting + beslissing / drempel / confidentie Hoe zeker ben ik ervan dat dit het doel-woord (frase) is confidence levels (utterance verification) ASH exp. (van simpel naar complex) : NB: woord = frase / chunk word spotting : spraak -> transc. en/of segm. word scoring : spraak + transc. en/of segm. -> scores 1. log-likelihoods (LLHs) 2. confidence measures 2a. op basis van N-best list (Gies) 2b. tools Febe 2c. tools Gies 2d. HTK word spotting : spraak -> transc. / segm. 1. 'gewone herkenning' mbv. Phicos met beperkt lexicon & LM Maak een lexicon & LM op basis van de correcte antwoorden. Train ook HMMs om 'de rest' te herkennen: - silence model - stilte - noise model - ruis - garbage model - andere spraak Hoe werkt dit in combinatie met het LM? 2. Viterbi alignment => segmentation word scoring : spraak + transc. / segm. -> scores 1. log-likelihoods (LLHs) LLHs via Viterbi alignment of 'standaard' ASH (graph2best, g2rnb) LLH(utt) = sum(LLH(words on the best path in the WG)) LLHs zijn (te) sterk afhankelijk van T (duur) => confidence measures (CMs) 2. confidence measures (CMs) 2a. op basis van N-best list (Gies) Hoe vaker een woord voorkomt, des te hoger de CM 2b. tools Febe F. de Wet, C. Cucchiarini, H. Strik, L. Boves (1999) Rapport van Febe geen anti-modellen; LR = LH_forced / LH_freephone; LLR = LLH_forced - LLH_freephone sentence based (output of graph2best / g2rnb) 2c. tools Gies G. Bouwman, L. Boves, J. Koolwaaij (ICASSP-2000) CM per frame - phone - word anti-model: (highly) confusable / acoustical similar material word level confusion matrices 2d. HTK Zitten hier bruikbare features in ? bv. confidence measures, word spotting 2. confidence measures (CMs) continued anti-model Wat is de optimale model - anti-model combinatie (& het materiaal om het te trainen) ? Het betreft 'spontane' spraak van NNS. Ze proberen begrijpelijk Ned. te spreken. Er is niet voldoende spraakmateriaal van NNS !