Spraaksynthese

Spraaksynthese is de computergegenereerde simulatie van menselijke spraak. Het wordt gebruikt om geschreven informatie te vertalen in auditieve informatie wanneer dat handiger is, vooral voor mobiele toepassingen zoals e-mail met spraakherkenning en unified messaging . Het wordt ook gebruikt om slechtzienden te helpen, zodat bijvoorbeeld de inhoud van een beeldscherm automatisch kan worden voorgelezen aan een blinde gebruiker. Spraaksynthese is de tegenhanger van spraak- of stemherkenning. De vroegste poging tot spraaksynthese dateert van 1779, toen de Russische professor Christian Kratzenstein een op het menselijk spraakkanaal gebaseerd apparaat construeerde om de fysiologische verschillen aan te tonen bij de productie van vijf lange klinkers. De eerste volledig functionele spraaksynthesizer, Homer Dudley's VODER (Voice Operating Demonstrator), werd getoond op de Wereldtentoonstelling van 1939. De VODER was gebaseerd op het vocoder-onderzoek (spraakcoder) van Bell Laboratories uit het midden van de jaren dertig.

Spraakprothese is computergegenereerde spraak voor mensen met een lichamelijke handicap die het moeilijk maakt om verstaanbaar te spreken. Veel van het onderzoek op dit gebied integreert zowel tekst- als spraakgeneratie, aangezien de handicaps die problemen met spraak veroorzaken vaak ook tekstinvoer moeilijk maken. Gezien de snelheid en vloeiendheid van menselijke conversatie, bestaat de uitdaging van de spraakprothese erin deze moeilijkheden te omzeilen. Het voornaamste doel van het onderzoek is een prothetisch systeem te ontwikkelen dat zo dicht mogelijk bij natuurlijke spraak komt te liggen, met zo weinig mogelijk input van de gebruiker. Spraakprothese-systemen maken het ook mogelijk voor visueel gehandicapten om computers te gebruiken.

Multimodale spraaksynthese (soms aangeduid als audiovisuele spraaksynthese) omvat een gesynchroniseerd geanimeerd gezicht als aanvulling op de gesynthetiseerde spraak. Dezelfde moeilijkheden die ten grondslag liggen aan iemands spraakgebrek belemmeren vaak zijn vermogen om te communiceren door middel van gezichtsuitdrukkingen. Hoewel gesynthetiseerde spraak steeds levensechter wordt, kan het nog geruime tijd duren voordat het in de buurt komt van de nuances van natuurlijke spraak. Multimodale systemen bevatten een manier om non-verbale signalen aan spraak toe te voegen (zoals hoofdschudden, glimlachen en knipogen) om de betekenis van de gebruiker zo duidelijk mogelijk te maken.