Il Codice ASCII

Storia della Crittografia - Codici e telecomunicazioni

Il Codice ASCII

Il cifrario di Vernam - La cifra di Feistel - Il Baudot

Codice ASCII a 7 bit
Numero	Binario	Lettera	Numero	Binario	Lettera	Numero	Binario	Lettera
caratteri di controllo
0	00000000	NULL	1	00000001		2	00000010
3	00000011		4	00000100		5	00000101
6	00000110		7	00000111		8	00001000	BS
9	00001001	HT	10	00001010	LF	11	00001011	VT
12	00001100	FF	13	00001101	CR	14	00001110
15	00001111		16	00010000		17	00010001
18	00010010		19	00010011		20	00010100
21	00010101		22	00010110		23	00010111
24	00011000		25	00011001		26	00011010
27	00011011	ESC	28	00011100		29	00011101
30	00011110		31	00011111
caratteri alfabetici
32	00100000		33	00100001	!	34	00100010	"
35	00100011	#	36	00100100	$	37	00100101	%
38	00100110	&	39	00100111	'	40	00101000	(
41	00101001	)	42	00101010	*	43	00101011	+
44	00101100	,	45	00101101	-	46	00101110	.
47	00101111	/	48	00110000	0	49	00110001	1
50	00110010	2	51	00110011	3	52	00110100	4
53	00110101	5	54	00110110	6	55	00110111	7
56	00111000	8	57	00111001	9	58	00111010	:
59	00111011	;	60	00111100	<	61	00111101	=
62	00111110	>	63	00111111	?	64	01000000	@
65	01000001	A	66	01000010	B	67	01000011	C
68	01000100	D	69	01000101	E	70	01000110	F
71	01000111	G	72	01001000	H	73	01001001	I
74	01001010	J	75	01001011	K	76	01001100	L
77	01001101	M	78	01001110	N	79	01001111	O
80	01010000	P	81	01010001	Q	82	01010010	R
83	01010011	S	84	01010100	T	85	01010101	U
86	01010110	V	87	01010111	W	88	01011000	X
89	01011001	Y	90	01011010	Z	91	01011011	[
92	01011100	\	93	01011101	]	94	01011110	^
95	01011111	_	96	01100000	`	97	01100001	a
98	01100010	b	99	01100011	c	100	01100100	d
101	01100101	e	102	01100110	f	103	01100111	g
104	01101000	h	105	01101001	i	106	01101010	j
107	01101011	k	108	01101100	l	109	01101101	m
110	01101110	n	111	01101111	o	112	01110000	p
113	01110001	q	114	01110010	r	115	01110011	s
116	01110100	t	117	01110101	u	118	01110110	v
119	01110111	w	120	01111000	x	121	01111001	y
122	01111010	z	123	01111011	{	124	01111100	\|
125	01111101	}	126	01111110	~	127	01111111

Il codice ASCII è oggi il più usato dai computer per rappresentare i caratteri alfanumerici con numeri binari.

L'acronimo ASCII sta per American Standard Code for Information Interchange; questo codice fu progettato dopo il 1960 in ambiente IBM e quindi inserito nello standard ASA (American Standard Association) e in seguito nell'ANSI (American National Standards Institute).

Il codice doveva includere tutti i caratteri già presenti negli standard per le telecomunicazioni e cioè lo spazio, le 26 lettere (maiuscole) dell'alfabeto, le 10 cifre decimali, i segni di interpunzione oltre a un certo numero di simboli di uso comune. Un totale di 40-50 simboli che diventano più di 64 se si vogliono includere anche le lettere minuscole; poiché 64 = 2⁶ richiede 6 bit, occorrevano almeno 7 bit.

E il codice ASCII nacque appunto come codice a 7 bit, due più del vecchio codice Baudot. Usando la notazione binaria ogni simbolo è rappresentato da un numero a 7 cifre, da 0000000 a 1111111, in decimale da 0 a 127, 128 caratteri in tutto.

In trasmissione in realtà vengono trasmessi ottetti di bit, detti byte, avanza quindi un ottavo bit che è usato come bit di controllo trasmissione.

I primi 32 caratteri da 0 a 31 sono caratteri di controllo, per esempio CR carriage return= ritorno carrello, numero 13, 0001101 in binario, LF Line Feed, prossima linea.

Il carattere 32 è lo spazio, i caratteri da 33 a 47 sono simboli vari, i caratteri da 48 a 57 rappresentano le 10 cifre decimali da 0 a 9, i caratteri da 58 a 64 sono altri simboli vari.

Le lettere latine maiuscole vanno dal codice ASCII 65 ('A') al 90 ('Z'); quelle minuscole da ASCII 97('a') a 122 ('z'); i rimanenti sono ancora simboli speciali, parentesi e simili, come da tabella a fianco.

Nascono come funghi i codici ASCII estesi

Il codice ASCII in sostanza contiene i caratteri presenti sulla tastiera di una macchina da scrivere americana, mancano quindi del tutto i caratteri specifici di altre lingue, per esempio vocali accentate, con l'umlaut, caratteri con tilde, per non parlare di altri alfabeti come il greco, il cirillico ecc.ecc.

Questa limitazione suggerì ben presto di estendere ASCII con altri caratteri; nacquero codici ASCII estesi a 8 bit, sacrificando il bit di controllo; in questo modo fu possibile inserire vocali accentate, simboli grafici ecc.ecc. Purtroppo nessuno standard fu imposto a queste estensioni e ne nacquero molte diverse tra loro, una MSDOS, una Windows, una Unix ... in poche parole una Babele di estensioni.

Attualmente le estensioni più diffuse del codice ASCII sono ISO-8859-1, ISO-8859-15, Windows 1252.

La conseguenza di questa Babele la si vede ancora oggi navigando sul Web, capita spesso di trovarsi davanti a pagine con caratteri incomprensibili o sostituiti da punti di domanda. Sono caratteri appartenenti a uno dei tanti ASCII estesi, male interpretati da un browser configurato per un'altra estesione.

Emerge il chiaro vincitore: UTF-8

Dopo anni di confusione sta però finalmente emergendo il chiaro vincitore tra tutte queste estensioni, il codice UTF-8 che estende in modo molto intelligente l'originale ASCII a 7 bit, in modo da poter includere ben più di 256 caratteri.

Il trucco in sostanza è questo: vengono trasmessi come sempre ottetti (byte) di bit; se il bit di controllo è 0, l'ottetto va interpretato come carattere ASCII a 7 bit; se il bit di controllo è 1, va letto il prossimo ottetto che sarà l'ultimo se il bit di controllo è 0, altrimenti si deve leggere anche il successivo e così via. In questo modo diventa possibile codificare un numero pressochè infinito di caratteri; e infatti UTF-8 contiene ormai quasi tutti gli alfabeti del mondo presenti e passati, e anche futuri perché il codice può essere ulteriormente esteso.