Soundshoppen met VoCo

Breekt er na fotoshoppen, ook een tijd van soundshoppen aan

Deze prangende vraag doet zich voor nu de firma Adobe stelt dat een dergelijke toepassing wordt ontwikkeld onder de naam VoCo. Op platform YouTube is te zien en te horen hoe een onderzoeker toehoorders verrast door ingesproken zinnen te veranderen door het intypen van vervangende tekst. Op het gehoor is dit een heel geloofwaardige exercitie. Maar er valt wel het nodige bij op te merken. Ik heb contact met de ontwikkelaar Zeyu Yin gelegd, maar vooralsnog krijg ik niet veel respons. Het aantal toepassingsmogelijkheden lijkt toch beperkt. Dat geldt ook voor de mogelijkheid om willekeurige uitgesproken tekstgedeelten te kunnen vervangen. Maar wel degelijk roept het vragen op. Iets voor Vincent van Heuven (foto):

Stephen Hawking
We vragen een Nederlandse expert op dit gebied, Dr. Vincent J. van Heuven, emeritus hoogleraar Experimentele taalkunde, in het bijzonder de fonetiek om commentaar. We hanteerden eerst het woord audioshoppen. Vincent van Heuven corrigeert: Ik zou het geen audioshoppen, maar soundshoppen willen noemen. De tegenstelling is video <> audio. Tegenover foto (= licht) staat geluid (= sound)> Of misschien is nog mooier (in kwasi-Grieks): fonoshoppen. Die gepersonaliseerde tekst-to-speech applicatie zat er al een hele tijd aan te komen. De toepassing heet ook wel stemsynthese of speech conversion. In de negentiger jaren ben ik al eens een dag te gast geweest bij de AIVD om met hen (en andere experts) van gedachten te wisselen over mogelijk misbruik van deze techniek om vooraanstaande politici en leden van het Koningshuis in verlegenheid te brengen. Ik kon ze toen nog wel gerust stellen maar de technieken zijn ondertussen al wel een stuk beter. Personalised Text-to-Speech is een respectabele toepassing die o.a. wordt ingezet t.b.v. patiënten die in de beginfase zitten van ALS. Het begint met de spieren in de periferie, maar na verloop van tijd worden bij ALS ook de centrale spieren aangetast, waaronder de spieren die we gebruiken als we spreken. Zulke mensen zijn dan nog wel geholpen met een spraaksynthesesysteem dat ze kunnen bedienen met hun ogen (de beroemde astronoom Stephen Hawking doet dat zo – hij is een atypische ALS patiënt die al 30 jaar met de ziekte doorleeft, terwijl de normale levensverwachting na diagnose slechts vier jaar is. Aanvankelijk kregen de patiënten (ook Hawking) een standaard spraaksynthetisator (zie nootje beneden). De stemlozen vinden het bezwaarlijk als hun boodschappen dan klinken met de stem van iemand anders – zeker als die ook nog eens spreekt met een Amerikaans accent in plaats van een Brits accent. Vandaar al van oudsher de wens om een synthetisator te krijgen met je eigen stem. Die wens kan nu dus vervuld worden.

Uitgekiend
Ik kan niet onder de motorkap kijken, aldus Vincent van Heuven, maar het werkt ongeveer als volgt. Ik ga ervan uit dat de gebruiker 20 minuten lang een tekst voorleest (in het Engels – voor andere talen zullen ze minder ver zijn) waaruit het systeem alle mogelijke bouwstenen trekt. De kleinste bouwstenen zijn niet zo zeer fonemen (zoals in de begeleidende tekst wordt gezegd) maar difonen, dat zijn geluidsstukjes die ruwweg lopen vanaf het midden van een klank tot aan ruwweg het midden van de volgende klank die daar in vloeiende spraak op volgt. Die tekst van 20 minuten moet dus heel uitgekiend zijn samengesteld, omdat alle bestaanbare combinaties van twee opeenvolgende klanken daarin moeten voorkomen. En liefst ook flink wat veel voorkomende woordcombinaties en grotere zinsneden. Waarschijnlijk worden klankcombinaties die maar heel weinig voorkomen niet in de tekst opgenomen, anders zou je het niet redden in 20 minuten. Verder moet er een goede inventaris van spraakmelodieën in de tekst zitten, en moeten de zinnen zo geconstrueerd zijn dat vooraf met grote zekerheid kan worden verwacht welke specifieke melodie gebruikt zal worden (dat is een moeilijke kwestie want een spreker heeft bij het voorlezen heel veel mogelijke melodieën tot zijn beschikking.

Spraak naar Tekst
Wat wel redelijk nieuw is aan VoCo, lijkt mij, is dat je de basistekst invoert via de stem. Wat je zegt wordt omgezet in tekst (dus spraak-naar-tekst = automatische spraakherkenning). Die tekst kun je via het toetsenboord editten, en daarna wordt de gewijzigde invoertekst weer terugomgezet in spraak (tekst-naar-spraak). Ik neem aan dat als je de herkende tekst NIET edit, het systeem in nagenoeg real time de ingesproken zin kan herhalen in de synthese. Ik heb weerman Erwin Krol 20 jaar geleden of zo, wel eens aangeboden zo’n systeem voor hem te maken. Ik plaagde hem met zijn wat platte uitspraak van het Nederlands, en dacht dat ik het wel zo zou kunnen regelen dat zijn stem dan in de resynthese algemeen beschaafd zou klinken (we waren in die tijd beiden betrokken bij een masteropleing multimediastudies in Leiden; hij is wijselijk niet ingegaan op mijn aanbod…). Het punt is dat indien VoCo in verkeerde handen valt, de bedrieger met de stem van iemand anders hele telefoongesprekken zou kunnen voeren. Over de telefoon is de spraak al wel vaker wat verlaat, dus een fractie van een seconde vertraging zal niet opvallen. De boef hoeft de tekst niet met het toetsenbord te wijzigen: hij kan zijn eigen stem flitsend snel omzetten in tekst, en die tekst onmiddellijk laten terugspreken (of misschien wel laten MEEspreken – maar dan een kwart seconde later, bij voorbeeld) in de stem van iemand anders. En dat is dan heel andere koek dan alleen maar een (vooraf voorbereid) voicemailtje inspreken met de stem van iemand anders…

Forensische Consequenties
Voor het gehoor zal het resultaat van wijzigingen in de invoertekst heel goed klinken. Bij gedetailleerde akoestische analyses wordt waarschijnlijk snel duidelijk dat er vreemde (te plotselinge) veranderingen zitten op overgangen tussen klanken). Als ik zou weten wat de tekst is die moet worden voorgelezen zou ik – denk ik – met wat puzzelen wel kunnen achterhalen welke klankcombinaties er NIET inzitten, en waarmee het systeem dus door de mand kan vallen als je die woorden toch laat uitspreken. Het systeem is waarschijnlijk een mengvorm van VUC (Variable Unit Concatenation) en HMM-synthese en dat klinkt doorgaans heel overtuigend en natuurlijk. Het idee is om steeds een zo groot mogelijk stuk spraak uit het geheugen op te halen en alleen in geval van nood terug te vallen op kleinere eenheden zoals de difonen. Zie verder hoofdstuk 15 van het boek Algemene Fonetiek van Rietveld en mij. De vierde editie is een paar dagen geleden verschenen. De forensische consequenties zullen aanzienlijk zijn. Ik denk dat er brood op de plank is voor fonetici: die kunnen waarschijnlijk aan de hand van vergelijking van opnamen van de VoCo en dezelfde tekst later opgenomen van de beschuldigde wel laten zien dat er systematische verschillen te zien zijn…

ABNAMRO
Maar, tot slot, we moeten de gevaren van VoCo niet overdrijven. Het is alles welbeschouwd niet anders dan met onze bankpasjes. Als je via Adobe een persoonlijke VoCo aanmaakt wordt dat een stukje software dat beveiligd is met een wachtwoord en/of PIN. Zolang je je wachtwoord en PIN niet uit handen geeft, kan iemand anders niet bij jouw stem komen. Het wordt pas link als iemand jouw stem zou opnemen op het moment dat jij de 20 minuten tekst inspreekt waarmee het systeem getraind wordt op de stem van de toekomstige gebruiker. De bedrieger zou die opname later kunnen gebruiken om een VoCo met jouw stem aan te maken onder zijn eigen naam. Het lijkt me dan redelijk dat Adobe iedere keer als de 20-minuten tekst moet worden voorgelezen, deze anders is – wel dezelfde zinnen maar bij voorbeeld in een andere volgorde; dat reduceert de kans op fraude tot vrijwel nul. Je kunt natuurlijk zeggen dat Adobe zelf altijd toegang heeft tot de spraakbestanden. Dat is zonder meer waar, maar dat geldt in beginsel ook voor ING en ABNAMRO; die kunnen altijd bij het geld dat op je rekening staat: ergens in hun computer staat jouw PIN, want anders kunnen ze bij internettransacties niet controleren of je PIN klopt. Uiteindelijk draait de wereld geheel op blind vertrouwen…

Forensicon
Marco Bosmans (foto), directeur van Forensicon voorziet dat in de toekomst analyses vaker toegespitst zullen zijn op de aanwezigheid van onlogische onderbrekingen van een spraakfragment. Hij refereert aan een dossier waarbij Forensicon de hulp van foneticus Vincent van Heuven heeft ingeroepen. Van een verdachte kon worden aangetoond dat hij niet degene kon zijn die een belastend voicemailbericht had ingesproken. Vrijspraak volgde.

Nootje.

De vroege spraaksynthetisator van Hawking was – voor zo ver ik kon horen – de commerciële versie (genaamd DEC-Talk) die DEC (Digital Equipment Corporation, een computergigant uit de jaren 70 gespecialiseerd in laboratoriumcomputers) had gekocht van mijn collega-foneticus Dennis Klatt. Dennis werkte aan het spraaklaboratorium van MIT en bouwde zijn KLATT-Talk op basis van zijn eigen stem, omdat hij strottenhoofdkanker had en wist dat hij op termijn niet meer zou kunnen spreken. KLATT-Talk (later ook wel MIT-Talk) is met afstand het beste spraaksynthesesysteem dat ooit gebouwd is op basis van expliciete regels – en niet zoals tegenwoordig gedreven wordt door big data en number crunching). Klatt voorzag de commerciële toepassingen van zijn systeem al vanaf het begin. Hij gaf het systeem o.a. een instelmogelijkheid waarmee de kunststem naar keuze van de gebruiker klonk als een jonge man, een oude man, een vrouw of een kind. Dennis’ dochter Laura zat ook in het vak, samen hebben zij het onderzoek gedaan naar de mogelijkheden om mannenstemmen akoestisch te veranderen in goedklinkende vrouwenstemmen (zie Klatt & Klatt 1990 in the Journal of the Acoustical Society of America).

http://www.bbc.com/news/technology-37899902

Rietveld, A.C.M. & V.J van Heuven (2016). Algemene fonetiek. Bussum: Coutinho.

Baart J.L.G. & V.J. van Heuven (1990). Review of Jonathan Allen, M. Sharon Hunnicutt and Dennis Klatt (with Robert C. Armstrong and David Pisoni): From Text to Speech: The MITalk System. Cambridge University Press, Cambridge, 1987. Lingua, 81, 265-270.

D. H. Klatt & L. C. Klatt (1990). Analysis, synthesis, and perception of voice quality variations among female and male talkers. Journal of the Acoustical Society of America, 87, 820-857.

Mijn gekozen waardering € -