En talsyntesizer tar
text som dess primära ingång. Den här texten kan vara i olika format:
* vanlig text: Det vanligaste formatet, som endast innehåller karaktärer och skiljetecken.
* Formaterad text: Inkluderar formateringselement som BOLD, kursiv och linjeavbrott.
* fonetiska transkriptioner: Använda fonetiska symboler för att representera ljudet från texten.
* prosodisk information: Ytterligare information om rytmen, intonationen och betoningen av texten.
Utöver text kan vissa talsynteser acceptera ytterligare ingångar:
* röstparametrar: Så att användare kan anpassa den syntetiserade rösten, såsom kön, ålder, accent och emotionell ton.
* Ljudsignaler: För applikationer som realtidsröstkonvertering, där synthesizer modifierar en befintlig ljudsignal.
Hur synthesizer bearbetar dessa ingångar kan variera mycket, allt från enkla regelbaserade system till komplexa djupinlärningsmodeller. Kärnprincipen förblir emellertid densamma: Konvertera text till talsignaler.