Röstinspelningar är den fysiska manifestationen av tal, och fonem är de minsta ljudenheterna som skiljer betydelsen på ett språk. Förhållandet är att en röstinspelning * innehåller * en sekvens av fonem.
Speciellt:
* Röstinspelningar fångar den akustiska signalen: De registrerar vibrationerna av ljudvågor som produceras av stämband, tunga, läppar etc. när de släpps ut av en högtalare. Detta är en kontinuerlig vågform.
* fonem är abstrakta språkliga enheter: De är inte direkt observerbara i vågformen; Istället härleds de från den akustiska signalen. Lingvister och talforskare analyserar inspelningens akustiska egenskaper för att identifiera fonemerna som utgör de talade orden.
* Kartläggningen är komplex och inte en-till-en: Samma fonem kan låta annorlunda beroende på sammanhanget (t.ex. de omgivande ljuden, högtalarens accent). Dessutom innehåller den akustiska signalen mycket mer än bara fonem; Det innehåller prosodiska funktioner som intonation, stress och rytm, samt brus och andra artefakter.
Kort sagt, en röstinspelning är rådata; Fonem är den språkliga tolkningen av aspekter av dessa data. Att extrahera fonem från en röstinspelning kräver sofistikerad signalbehandling och språklig kunskap.