Datorer representerar inte siffror, bokstäver eller specialtecken med en enda, universell kod. Istället använder de
teckenkodningsscheman . Dessa scheman kartlägger tecken till numeriska värden. De vanligaste är:
* ASCII (amerikansk standardkod för informationsutbyte): Detta är en 7-bitars kodning (vilket innebär att den använder 7 bitar för att representera varje tecken), som representerar 128 tecken inklusive versaler och små bokstäver, nummer 0-9, skiljetecken och kontrolltecken.
* Utökad ASCII: Olika 8-bitars förlängningar av ASCII finns, lägger till fler tecken, ofta inklusive accentter och symboler som används på olika språk. Dessa är dock inte standardiserade.
* unicode: Detta är en mycket bredare, internationell standard som representerar karaktärer från praktiskt taget alla skrivsystem. Den använder kodningsscheman med variabel längd som UTF-8, UTF-16 och UTF-32. UTF-8 är den vanligaste kodningen som används på webben.
Hur det fungerar:
Varje karaktär har en unik numerisk kod. Till exempel:
* I ASCII:'a' är 65, 'a' är 97, '0' är 48.
* I Unicode:'a' är u+0041 (hexadecimal), 'a' är u+0061, '0' är u+0030.
Datorn lagrar dessa numeriska koder som binära nummer (sekvenser av 0s och 1s). När du ser ett tecken på skärmen ser datorns programvara upp motsvarande kod och visar rätt glyf (visuell representation av karaktären).
Så det finns ingen enda "kod" - det beror på det kodningsschema som används. Representationen är alltid ett nummer (i binär), men kartläggningen från det numret till en synlig karaktär bestäms av kodningen.