Text-to-speech (TTS) is een AI-technologie die geschreven tekst omzet in natuurlijk klinkende spraak. Het is een vorm van generatieve AI die zich richt op audio-output in plaats van tekstoutput. Moderne TTS-systemen kunnen tekst zo natuurlijk uitspreken dat het moeilijk is om het verschil te horen met echte mensenstemmen.
TTS wordt gebruikt in talloze toepassingen: navigatiesystemen in auto’s, e-bookreaders, hulpmiddelen voor mensen met visuele beperkingen, customer service chatbots en virtuele assistenten. De kwaliteit is explosief verbeterd dankzij deep learning en neural networks, die intonatie, tempo en emotie kunnen nabootsen.
Het omgekeerde van TTS is Speech-to-Text (STT), waarbij gesproken woorden worden geconverteerd naar geschreven tekst. Samen vormen deze technologieën het fundament van veel spraak-interactie met AI.