Free Book: I set di caratteri

I set di caratteri NEXT chapters

Di cosa si tratta?
Definizioni
ASCII
ISO 8859
UNICODE
UTF-32
UTF-16
UTF-8
TABELLE UNICODE

Di cosa si tratta?

Il problema del set di caratteri è una delle bestie nere della programmazione, soprattutto quando si mettono in comunicazione programmi o computer di differenti aree geografiche. In questo articolo, cercherò di dare un'idea generale di cosa siano un set di caratteri ed un "encoding" e di quali rapporti ci siano ( se ci sono ) tra un encoding e l'altro.

Definizioni

Set di caratteri
Un set di caratteri è un elenco di caratteri che alcune lingue utilizzano per scrivere. Attenzione: un set di caratteri può anche essere un elenco di caratteri che UNA lingua utilizza per scrivere. Per esempio, in italiano si utilizzano le normali lettere dell'alfabeto ( A - Z ), più alcune lettere accentate ( àèéùìò ), più una serie di segni di interpunzione ( ,.;!, etc. ).

Encoding
Per 'encoding' si intende una regola matematica che permette di calcolare un codice ( un numero ) corrispondente ad ogni carattere. Per i comuni mortali, l'encoding si concretizza in una semplice tabella che mostra, per ogni carattere, il suo codice corrispondente. Due encoding sono diversi se associano, allo stesso carattere, un codice diverso, oppure se rappresentano set di caratteri diversi ( cinese ed italiano, per esempio ). Attenzione: un encoding associa ad ogni codice un solo grafema. Da questo punto di vista, una "A" deve essere rappresentata da un codice differente dal codice che rappresenta la lettera "a". Quest'ultima annotazione, che a prima vista è tanto banale ed intuitiva, comporta invece una serie di noiosi problemi in alcune applicazioni, anche fra quelle che la maggior parte di noi utilizzano quotidianamente. Lavorando in MySQL, per esempio, avete pienamente compreso cos'è la collazione che dovete impostare per ciascun campo di tipo testuale? Ebbene, la collazione altro non è che un insieme di regole che il vostro programma esegue quando deve comparare due stringhe differenti: devo considerare "a" uguale ad "à"? Se stai cercando il termine "città", devo estrarre anche "citta"? Nell'ordinamento di una lista, quale ordine devo seguire: di codifica ( andria, Ancona, Milano ) o alfabetico ( Ancona, andria, Milano )?

Bit
In informatica, il bit è l'unità minima di informazione. Con un solo bit, che può essere attraversato da corrente elettrica o non essere attraversato da corrente elettrica, possiamo rappresentare solo due codici. Con due linee ( bit ), possiamo rappresentarne già 4. Visto che l'unità minima significativa, in informatica, è rappresentata, normalmente, da un gruppo di 8 bit ( byte ), possiamo dedurre che in una tabella codice - grafema ( encoding ) che utilizzi 8 bit, potremmo trovare fino a 256 rappresentazioni ( caratteri ) differenti. Questo significa che un encoding che utilizzi più byte potrà rappresentare un maggior numero di caratteri. E questo, fondamentalmente, è il problema legato al set di caratteri: mentre il vecchio sistema ASCII utilizzava un solo byte, UNICODE ne utilizza due, mentre UTF8 ne utilizza un numero variabile, da uno a sei! Da ciò consegue la prima regola fondamentale nell'utilizzo dei set di caratteri: il programma che riceve e deve interpretare una serie di caratteri, deve conoscere l'encoding utilizzato per rappresentarli. In caso contrario ... può succedere di tutto.

ASCII

American Standard Code for Information Interchange: codice standard americano per scambio di informazioni. Codice binario, ideato da Robert W. Bemer nel 1965 e approvato nel 1968 dall'Istituto Nazionale Americano per gli Standard ( ANSI ). Ai primordi dell'informatica, i computer parlavano solo americano. Il codice ASCII, quindi, doveva rappresentare il set di caratteri USA: caratteri numerici ( 0123456789 ), alfabetici maiuscoli e minuscoli, punteggiatura, simboli grafici e 32 codici per il controllo di periferiche e apparecchi di comunicazione ( caratteri non stampabili ). Pur avendo a disposizione 8 bit ( 1 byte ), cioè 256 codifiche differenti, ANSI stabilì i codici di 128 caratteri in totale, che allora sembravano più che sufficienti! In sostanza, ASCII utilizza solo 7 degli 8 bit a disposizione, lasciando il bit più significativo ( quello a sinistra ) sempre a zero.

BITS								CHAR	TYPO	CTRL	OCT	HEX
08	07	06	05	04	03	02	01	-	-	-	-	-
0	0	0	0	0	0	0	0	NUL	CONTROLLO	0	000	0000
0	0	0	0	0	0	0	1	SOH	CTRL A	1	001	0001
0	0	0	0	0	0	1	0	STX	CTRL B	2	002	0002
0	0	0	0	0	0	1	1	ETX	CTRL C	3	003	0003
0	0	0	0	0	1	0	0	EOT	CTRL D	4	004	0004
0	0	0	0	0	1	0	1	ENQ	CTRL E	5	005	0005
0	0	0	0	0	1	1	0	ACK	CTRL F	6	006	0006
0	0	0	0	0	1	1	1	BEL	Bell	7	007	0007
0	0	0	0	1	0	0	0	BS	Backspace	8	010	0008
0	0	0	0	1	0	0	1	HT	Tab	9	011	0009
0	0	0	0	1	0	1	0	LF	Line Feed	10	012	000A
0	0	0	0	1	0	1	1	VT	CTRL K	11	013	000B
0	0	0	0	1	1	0	0	FF	Form Feed	12	014	000C
0	0	0	0	1	1	0	1	CR	Return	13	015	000D
0	0	0	0	1	1	1	0	SO	CTRL N	14	016	000E
0	0	0	0	1	1	1	1	SI	CTRL O	15	017	000F
0	0	0	1	0	0	0	0	DLE	CTRL P	16	020	0010
0	0	0	1	0	0	0	1	DC1	CTRL Q	17	021	0011
0	0	0	1	0	0	1	0	DC2	CTRL R	18	022	0012
0	0	0	1	0	0	1	1	DC3	CTRL S	19	023	0013
0	0	0	1	0	1	0	0	DC4	CTRL T	20	024	0014
0	0	0	1	0	1	0	1	NAK	CTRL U	21	025	0015
0	0	0	1	0	1	1	0	SYN	CTRL V	22	026	0016
0	0	0	1	0	1	1	1	ETB	CTRL W	23	027	0017
0	0	0	1	1	0	0	0	CAN	CTRL X	24	030	0018
0	0	0	1	1	0	0	1	EM	CTRL Y	25	031	0019
0	0	0	1	1	0	1	0	SUB	CTRL Z	26	032	001A
0	0	0	1	1	0	1	1	ESC	CTRL [	27	033	001B
0	0	0	1	1	1	0	0	FS	CTRL \	28	034	001C
0	0	0	1	1	1	0	1	GS	Esc	29	035	001D
0	0	0	1	1	1	1	0	RS	CTRL ^	30	036	001E
0	0	0	1	1	1	1	1	US	CTRL _	31	037	001F
0	0	1	0	0	0	0	0	SP	NUMERI / SIMBOLI	32	040	0020
0	0	1	0	0	0	0	1	!	NUMERI / SIMBOLI	33	041	0021
0	0	1	0	0	0	1	0	"	NUMERI / SIMBOLI	34	042	0022
0	0	1	0	0	0	1	1	#	NUMERI / SIMBOLI	35	043	0023
0	0	1	0	0	1	0	0	$	NUMERI / SIMBOLI	36	044	0024
0	0	1	0	0	1	0	1	%	NUMERI / SIMBOLI	37	045	0025
0	0	1	0	0	1	1	0	&	NUMERI / SIMBOLI	38	046	0026
0	0	1	0	0	1	1	1	'	NUMERI / SIMBOLI	39	047	0027
0	0	1	0	1	0	0	0	(	NUMERI / SIMBOLI	40	050	0028
0	0	1	0	1	0	0	1	)	NUMERI / SIMBOLI	41	051	0029
0	0	1	0	1	0	1	0	*	NUMERI / SIMBOLI	42	052	002A
0	0	1	0	1	0	1	1	+	NUMERI / SIMBOLI	43	053	002B
0	0	1	0	1	1	0	0	,	NUMERI / SIMBOLI	44	054	002C
0	0	1	0	1	1	0	1	-	NUMERI / SIMBOLI	45	055	002D
0	0	1	0	1	1	1	0	.	NUMERI / SIMBOLI	46	056	002E
0	0	1	0	1	1	1	1	/	NUMERI / SIMBOLI	47	057	002F
0	0	1	1	0	0	0	0	0	NUMERI / SIMBOLI	48	060	0030
0	0	1	1	0	0	0	1	1	NUMERI / SIMBOLI	49	061	0031
0	0	1	1	0	0	1	0	2	NUMERI / SIMBOLI	50	062	0032
0	0	1	1	0	0	1	1	3	NUMERI / SIMBOLI	51	063	0033
0	0	1	1	0	1	0	0	4	NUMERI / SIMBOLI	52	064	0034
0	0	1	1	0	1	0	1	5	NUMERI / SIMBOLI	53	065	0035
0	0	1	1	0	1	1	0	6	NUMERI / SIMBOLI	54	066	0036
0	0	1	1	0	1	1	1	7	NUMERI / SIMBOLI	55	067	0037
0	0	1	1	1	0	0	0	8	NUMERI / SIMBOLI	56	070	0038
0	0	1	1	1	0	0	1	9	NUMERI / SIMBOLI	57	071	0039
0	0	1	1	1	0	1	0	:	NUMERI / SIMBOLI	58	072	003A
0	0	1	1	1	0	1	1	;	NUMERI / SIMBOLI	59	073	003B
0	0	1	1	1	1	0	0	<	NUMERI / SIMBOLI	60	074	003C
0	0	1	1	1	1	0	1	=	NUMERI / SIMBOLI	61	075	003D
0	0	1	1	1	1	1	0	>	NUMERI / SIMBOLI	62	076	003E
0	0	1	1	1	1	1	1	?	NUMERI / SIMBOLI	63	077	003F
0	1	0	0	0	0	0	0	@	MAIUSCOLE	64	100	0040
0	1	0	0	0	0	0	1	A	MAIUSCOLE	65	101	0041
0	1	0	0	0	0	1	0	B	MAIUSCOLE	66	102	0042
0	1	0	0	0	0	1	1	C	MAIUSCOLE	67	103	0043
0	1	0	0	0	1	0	0	D	MAIUSCOLE	68	104	0044
0	1	0	0	0	1	0	1	E	MAIUSCOLE	69	105	0045
0	1	0	0	0	1	1	0	F	MAIUSCOLE	70	106	0046
0	1	0	0	0	1	1	1	G	MAIUSCOLE	71	107	0047
0	1	0	0	1	0	0	0	H	MAIUSCOLE	72	110	0048
0	1	0	0	1	0	0	1	I	MAIUSCOLE	73	111	0049
0	1	0	0	1	0	1	0	J	MAIUSCOLE	74	112	004A
0	1	0	0	1	0	1	1	K	MAIUSCOLE	75	113	004B
0	1	0	0	1	1	0	0	L	MAIUSCOLE	76	114	004C
0	1	0	0	1	1	0	1	M	MAIUSCOLE	77	115	004D
0	1	0	0	1	1	1	0	N	MAIUSCOLE	78	116	004E
0	1	0	0	1	1	1	1	O	MAIUSCOLE	79	117	004F
0	1	0	1	0	0	0	0	P	MAIUSCOLE	80	120	0050
0	1	0	1	0	0	0	1	Q	MAIUSCOLE	81	121	0051
0	1	0	1	0	0	1	0	R	MAIUSCOLE	82	122	0052
0	1	0	1	0	0	1	1	S	MAIUSCOLE	83	123	0053
0	1	0	1	0	1	0	0	T	MAIUSCOLE	84	124	0054
0	1	0	1	0	1	0	1	U	MAIUSCOLE	85	125	0055
0	1	0	1	0	1	1	0	V	MAIUSCOLE	86	126	0056
0	1	0	1	0	1	1	1	W	MAIUSCOLE	87	127	0057
0	1	0	1	1	0	0	0	X	MAIUSCOLE	88	130	0058
0	1	0	1	1	0	0	1	Y	MAIUSCOLE	89	131	0059
0	1	0	1	1	0	1	0	Z	MAIUSCOLE	90	132	005A
0	1	0	1	1	0	1	1	[	MAIUSCOLE	91	133	005B
0	1	0	1	1	1	0	0	\	MAIUSCOLE	92	134	005C
0	1	0	1	1	1	0	1	]	MAIUSCOLE	93	135	005D
0	1	0	1	1	1	1	0	^	MAIUSCOLE	94	136	005E
0	1	0	1	1	1	1	1	_	MAIUSCOLE	95	137	005F
0	1	1	0	0	0	0	0	`	MINUSCOLE	96	140	0060
0	1	1	0	0	0	0	1	a	MINUSCOLE	97	141	0061
0	1	1	0	0	0	1	0	b	MINUSCOLE	98	142	0062
0	1	1	0	0	0	1	1	c	MINUSCOLE	99	143	0063
0	1	1	0	0	1	0	0	d	MINUSCOLE	100	144	0064
0	1	1	0	0	1	0	1	e	MINUSCOLE	101	145	0065
0	1	1	0	0	1	1	0	f	MINUSCOLE	102	146	0066
0	1	1	0	0	1	1	1	g	MINUSCOLE	103	147	0067
0	1	1	0	1	0	0	0	h	MINUSCOLE	104	150	0068
0	1	1	0	1	0	0	1	i	MINUSCOLE	105	151	0069
0	1	1	0	1	0	1	0	j	MINUSCOLE	106	152	006A
0	1	1	0	1	0	1	1	k	MINUSCOLE	107	153	006B
0	1	1	0	1	1	0	0	l	MINUSCOLE	108	154	006C
0	1	1	0	1	1	0	1	m	MINUSCOLE	109	155	006D
0	1	1	0	1	1	1	0	n	MINUSCOLE	110	156	006E
0	1	1	0	1	1	1	1	o	MINUSCOLE	111	157	006F
0	1	1	1	0	0	0	0	p	MINUSCOLE	112	160	0070
0	1	1	1	0	0	0	1	q	MINUSCOLE	113	161	0071
0	1	1	1	0	0	1	0	r	MINUSCOLE	114	162	0072
0	1	1	1	0	0	1	1	s	MINUSCOLE	115	163	0073
0	1	1	1	0	1	0	0	t	MINUSCOLE	116	164	0074
0	1	1	1	0	1	0	1	u	MINUSCOLE	117	165	0075
0	1	1	1	0	1	1	0	v	MINUSCOLE	118	166	0076
0	1	1	1	0	1	1	1	w	MINUSCOLE	119	167	0077
0	1	1	1	1	0	0	0	x	MINUSCOLE	120	170	0078
0	1	1	1	1	0	0	1	y	MINUSCOLE	121	171	0079
0	1	1	1	1	0	1	0	z	MINUSCOLE	122	172	007A
0	1	1	1	1	0	1	1	{	MINUSCOLE	123	173	007B
0	1	1	1	1	1	0	0	\|	MINUSCOLE	124	174	007C
0	1	1	1	1	1	0	1	}	MINUSCOLE	125	175	007D
0	1	1	1	1	1	1	0	~	MINUSCOLE	126	176	007E
0	1	1	1	1	1	1	1	DEL	MINUSCOLE	127	177	007F

Questa tabella divenne così uno standard, codificata, nel 1991, anche da ISO ( standard ISO/IEC 646:1991 ), uno standard ancora oggi ampiamente utilizzato. Ma che utilizzo si poteva fare dei restanti 128 caratteri lasciati liberi, grazie al bit più significativo lasciato a zero? Molte società di hardware e software svilupparono proprie estensioni del codice ( estensioni proprietarie, cioè private ), con l'aggiunta di un ottavo bit che ne portava i caratteri ad un totale di 256. In questo caso, si iniziò a parlare di ASCII esteso ( Extended ASCII ), poichè ciascuna organizzazione manteneva inalterati i primi 128 codici standardizzati. Così IBM, tra le altre, introdusse una codifica a 8 bit sui suoi PC con varianti per i diversi paesi ( per rappresentare, per esempio, le lettere accentate che nella lingua inglese sono completamente sconosciute ). Il problema era che le diverse versioni differivano tra loro in molti punti ed erano mutuamente incompatibili. Insomma, una vera torre di babele: inviare un documento digitale dall'Italia agli Stati Uniti, tanto per fare un esempio, poteva rivelarsi davvero problematico, visto che si poteva essere certi che almeno una parte dei caratteri contenuti non sarebbe mai stata interpretata correttamente.

ISO 8859

Di fronte al proliferare di codifiche proprietarie, ISO decise di intervenire. Nel 1998 nacque lo standard ISO 8859. Lo standard ISO 8859 altro non è che un'estensione della tabella ASCII, alla quale vengono aggiunti i 128 codici ottenibili con l'utilizzo dell'ottavo bit. Lo scopo di ISO 8859 era: rappresentare i simboli grafici dei caratteri propri delle lingue europee, tanto è vero che ISO 8859 fu creato da European Computer Manufacturer's Association ( ECMA ) e solo successivamente ricevette l'appoggio di ISO. Ben presto ci si rese conto che rappresentare tutte le varianti possibili contenute nei diversi set di carattere europei con l'aggiunta di un solo bit ( avendo quindi a disposizione 128 codifiche ), non era realizzabile. Si decise, quindi, di istituzionalizzare e standardizzare tabelle di caratteri differenti per ciascuna area geografica che condividesse un set di caratteri, comprese aree geografiche extraeuropee. Nacquero così differenti versioni dello standard ISO 8859:

ISO/IEC 8859-1:1998, Part 1: Latin alphabet No. 1
ISO/IEC 8859-2:1999, Part 2: Latin alphabet No. 2
ISO/IEC 8859-3:1999, Part 3: Latin alphabet No. 3
ISO/IEC 8859-4:1998, Part 4: Latin alphabet No. 4
ISO/IEC 8859-5:1999, Part 5: Latin/Cyrillic alphabet
ISO/IEC 8859-6:1999, Part 6: Latin/Arabic alphabet
ISO/IEC 8859-7:2003, Part 7: Latin/Greek alphabet
ISO/IEC 8859-8:1999, Part 8: Latin/Hebrew alphabet
ISO/IEC 8859-9:1999, Part 9: Latin alphabet No. 5
ISO/IEC 8859-10:1998, Part 10: Latin alphabet No. 6
ISO/IEC 8859-11:2001, Part 11: Latin/Thai alphabet
ISO/IEC 8859-13:1998, Part 13: Latin alphabet No. 7
ISO/IEC 8859-14:1998, Part 14: Latin alphabet No. 8 ( Celtic )
ISO/IEC 8859-15:1999, Part 15: Latin alphabet No. 9
ISO/IEC 8859-16:2001, Part 16: Latin alphabet No. 10

Alla pagina di Wikipedia

http://it.wikipedia.org/wiki/ISO_8859

trovate l'elenco delle ISO 8859 accompagnate dall'elenco delle lingue supportate, oltre ad una tabella comparativa dei codici compresi tra il 160 ed il 255 con le loro differenti rappresentazioni grafiche. Proprio quest'ultima tabella comparativa, ci rivela che ISO 8859 istituzionalizzò l'incompatibilità tra una tabella e l'altra, incompatibilità che derivava necessariamente dalla limitazione dei bit disponibili e dal numero dei caratteri da rappresentare, ma certamente limitò il proliferare di decine e centinaia di versioni differenti e proprietarie che sarebbero rimaste inaccessibili alla stragrande maggioranza delle persone. Con ISO 8859, per scrivere ed inviare un documento testuale diventava necessario scegliere il set di caratteri da utilizzare per scrivere il documento ed informare il destinatario del set di caratteri utilizzato, affinchè lo installasse nella sua macchina per poter interpretare correttamente il documento. D'altronde, è bene ricordare che con una sequenza data di bit, per esempio:

00011100

si può rappresentare un solo simbolo grafico, non due! Ancora oggi, se dobbiamo aprire e leggere un documento codificato con una delle varianti ISO 8859, dobbiamo sapere quale delle varianti è stata utilizzata originariamente. Con la rapida diffusione dell'uso dei computer in tutto il mondo, ci si rese presto conto che si doveva inventare una qualche forma di encoding universale e, soprattutto, con corrispondenze codice -> simbolo univoche. E questo significava creare un encoding che utilizzasse più di un byte per contenere l'informazione. Un ultimo accenno alla reperibilità della documentazione ufficiale ISO 8859. Gli standard sono disponibili, ma a pagamento, sul sito ISO, alla pagina:

http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_tc_browse.htm?commid=45050&published=on

ma i documenti ECMA, approvati da ISO, sono reperibili gratuitamente all'interno del sito ECMA:

ECMA-94, approvato da ISO come ISO 8859-1, 8859-2, 8859-3 e 8859-4
ECMA-113, approvato da ISO come ISO 8859-5
ECMA-114, approvato da ISO come ISO 8859-6
ECMA-118, approvato da ISO come ISO 8859-7
ECMA-121, approvato da ISO come ISO 8859-8
ECMA-128, approvato da ISO come ISO 8859-9
ECMA-144, approvato da ISO come ISO/IEC 8859-10

UNICODE

Lo standard internazionale ISO 10646 ( ISO/IEC 10646:2003: Universal Multiple-Octet Coded Character Set ) definisce Universal Character Set ( UCS ). UCS è un superset di caratteri che comprende tutti i set di caratteri standard. UCS garantisce una compatibilità bidirezionale con gli altri set di caratteri, volendo significare con ciò che nella conversione verso UCS e nella riconversione verso l'encoding originale non c'è alcuna perdita di informazione. UCS comprende i caratteri necessari a rappresentare praticamente ogni lingua conosciuta, oltre a rappresentare anche un gran numero di simboli grafici, tipografici, matematici e scientifici. UNICODE costituisce l'implementazione ufficiale dello standard internazionale ISO/IEC 10646. Unicode può codificare più di un milione di caratteri ( 1.114.112 per la precisione )! Unicode assegna un valore numerico ( code point ) ed un nome a ciascuno dei suoi caratteri. Unicode consente che un'unica versione di un software o di un sito web siano fruibili con piattaforme, lingue e paesi diversi, evitando la necessità di reingenierizzare il prodotto per ogni situazione specifica. Permette, inoltre, il trasporto del testo fra sistemi diversi senza che abbia luogo alcuna corruzione dei dati. Vediamo ora alcune importanti definizioni:

codespace: l'intervallo numerico utilizzato per codificare i caratteri è chiamato codespace. Nella codifica ASCII a 7 bit, per esempio, il codespace era compreso tra 0 ( zero ) e 127, per un totale di 128 caratteri o code point. Nello standard Unicode, il codespace è l'insieme di numeri interi compresi tra 0 ( zero ) e 1.114.111, in notazione decimale ( in notazione esadecimale: 10FFFF ), per un totale di 1.114.112 caratteri o code point.
code point: un singolo numero intero all'interno di questo intervallo è chiamato code point. Per denotare un code point dello standard Unicode, è pratica consolidata e diffusa utilizzare il suo valore numerico espresso in notazione esadecimale con una “U+” come prefisso:
```
	U+0061	LATIN SMALL LETTER A
	U+10330	GOTHIC LETTER AHSA
	U+201DF	CJK UNIFIED IDEOGRAPH-201DF
```
Per prevenire qualsiasi ambiguità, viene anche aggiunto il nome ufficiale Unicode del carattere, in modo da indicare con precisione il carattere codificato.
encoded character: quando un carattere viene assegnato ad un determinato code point all'interno del codespace, viene definito come un encoded character.
code units: i computer gestiscono i numeri come combinazioni di unità a grandezza fissa ( code unit ), quali il byte ( composto da 8 bit ) o la word ( composta da 32 bit ). Con il termine "code unit" si definisce la quantità minima di bit che può rappresentare una unità. In un sistema che assume una code unit di 8 bit, per esempio, potrò rappresentare un insieme numerico compreso nell'intervallo 0 - 255 ( o qualsiasi altro intervallo, ma la quantità massima dei componenti di quell'insieme non potrà essere mai superiore a 256 ). In un sistema che assume una code unit di 16 bit, l'intervallo dei numeri rappresentabili si estende: da zero a 65535. In un sistema che assume una code unit di 32 bit, l'intervallo dei numeri rappresentabili si estende ulteriormente: da zero a 4.294.967.295. Il concetto importante da assimilare è che la code unit di un determinato sistema è la quantità di bit che quel sistema si aspetta di ricevere per poterla poi interpretare. Se sosteniamo che ASCII ha una code unit di 8 bit, qualsiasi programma che tenti di leggere un file di testo in ASCII separerà lo stream di bit a gruppi di 8! Questo è il motivo per cui a volte trovate dei simboli strani in un file di testo: probabilmente, quel file è codificato con uno standard che utilizza una code unit a 16 bit, e voi state tentando di leggerlo con un programma che utilizza ASCII ( che ha una code unit a 8 bit ).

Abbiamo detto in precedenza che il solo modo di rappresentare, all'interno di un set di caratteri, più di 256 caratteri è di utilizzare unità di bit maggiori di 8. Visto che Unicode può rappresentare 1.114.112 caratteri, quanti bit utilizza? Inizialmente, Unicode utilizzava, per rappresentare i caratteri, unità a grandezza fissa: 16 bit. Quindi, Unicode, inizialmente, aveva code unit a 16 bit e poteva rappresentare 65536 caratteri, avendo a disposizione 65536 code point. I primi 128 code point assegnati mantennero le stesse corrispondenze code point => carattere che troviamo nella codifica ASCII a 7 bit ( ASCII standard a 8 bit, di cui il bit più significativo non veniva utilizzato ). Quindi, se la lettera A, in ASCII, aveva come code point il numero 65, in notazione decimale ( 41 in notazione esadecimale ):

01000001

nello standard Unicode venne assegnata allo stesso code point, ma rappresentata da una code unit a 16 bit ( 0041 in notazione esadecimale ) e non più a 8 bit:


	00000000 01000001

Ricordate questa distinzione: Unicode utilizzava due byte ( 16 bit ) ed una code unit, avendo definito la code unit di Unicode come composta da due byte. Per quanto riguarda i code point dal 128 al 255 ( in notazione decimale ), code point non standardizzati nella codifica ASCII a 7 bit, ma standardizzati con differenti tabelle dallo standard ISO 8859, fu necessario scegliere una delle differenti codifiche ISO 8859, visto che ciascuna versione dello standard ISO 8859 assegnava ad uno stesso code point un differente carattere. La scelta cadde su ISO/IEC 8859-1 ( Latin 1 ). Visto che ISO/IEC 8859-1 comprendeva tutti i 128 code point codificati nello standard ASCII a 7 bit, possiamo affermare che i primi 256 code point di Unicode coincidono con l'intera tabella ISO/IEC 8859-1. La sola differenza tra ISO/IEC 8859-1 e Unicode risiede nella composizione della code unit: la code unit di ISO/IEC 8859-1 era ( ed è ) a 8 bit, mentre la code unit di Unicode era a 16 bit ( nel caso dei primi 256 code point, avremo tutti i bit del byte più significativo a zero ). Presto si sentì il bisogno di estendere il numero di code point disponibili, senza stravolgere il lavoro precedente. La soluzione che venne adottata fu la creazione dei cosiddetti surrogati ( o coppie di surrogati ). I surrogati sono code point ( composti da una sola code unit a 16 bit, quindi compresi nell'intervallo numerico U+0000 ... U+FFFF ) che presi isolatamente non rappresentano nulla, ma che accoppiati ad un altro code point surrogato ed opportunamente elaborati esprimono un code point assegnabile ( un numero reale compreso nell'intervallo U+10000 ... U+10FFFF, che normalmente non può essere espresso con i soli 16 bit a disposizione nello standard Unicode ). L'intervallo numerico contenente i code point surrogati va dal code point U+D800 ( 55296 in notazione decimale ) al code point U+DFFF ( 57343 in notazione decimale ), per un totale di 2048 code point riservati. Di questi, la metà saranno utilizzati come High-surrogate code point, o leading surrogates ( code point surrogati più significativi ) , e precisamente quelli compresi nell'intervallo numerico che va da U+D800 ( 55296 in notazione decimale ) a U+DBFF ( 56319 in notazione decimale ). L'altra metà, compresa nell'intervallo numerico U+DC00 ( 56320 in notazione decimale ) - U+DFFF ( 57343 in notazione decimale ) saranno utilizzati come Low-surrogate code point o trailing surrogates ( code point surrogati meno significativi ). Ciascuna coppia composta da un leading surrogate ed un trailing surrogate andrà a comporre un nuovo code point assegnabile ad un carattere. Grazie a questo stratagemma, possiamo rappresentare


	1024x1024 = 1.048.576

code point in più! Questi nuovi code point vanno aggiunti ai 65.536 code point che scaturiscono dall'utilizzo di una code unit a 16 bit:


	1.048.576 + 65.536 = 1.114.112

Grazie alle coppie di surrogati, quindi, l'intervallo numerico utilizzabile da Unicode per rappresentare i caratteri diventa:


	0	=>	U+10FFFF ( 1.114.111 )

di cui 2048 code point non potranno mai essere utilizzati per codificare un carattere, perchè destinati a rappresentare i code point surrogati. A questo punto, dobbiamo chiederci se l'utilizzo di code point surrogati sia il solo sistema per poter rappresentare tutti i code point di questo intervallo numerico:


	00000000 => 00010000 11111111 11111111 ( U+10FFFF )

La risposta, ovviamente è no! Unicode ha sviluppato tre forme di rappresentazione ( Encoding Forms ) dei code point che utilizzano tre differenti code unit. Nello standard Unicode i modelli di codifica, definiti encoding forms, specificano come un numero intero ( code point ) destinato a rappresentare un carattere Unicode, sia da esprimere come una sequenza di una o più code unit. Nel nostro caso, ci sarà una serie di regole da rispettare per far sì che due code point surrogati, ciacuno composto da una sola code unit a 16 bit, messi uno a fianco dell'altro ed opportunamente elaborati ( vedremo in seguito come ) diano come risultato un nuovo code point valido. Ad esempio, il code point U+10302 ( 66306 in notazione decimale ), normalmente non rappresentabile con 16 bit, può essere rappresentato utilizzando ed elaborando i seguenti due code point surrogati:


	D800 DF02 ( 55296 57090 in notazione decimale )

Le tre encoding forms attualmente implementate da Unicode sono chiamate UTF ( Unicode Transformation Format oppure UCS Transformation Format ). Ciascuna di queste tre encoding forms è da considerarsi un meccanismo legittimo per rappresentare i caratteri Unicode; ognuna di esse ha i propri vantaggi in contesti differenti. Ciascuna delle tre encoding forms di Unicode può essere trasformata in ciascuna delle due rimanenti in modo efficiente e senza alcuna perdita di dati. Le tre encoding forms previste da Unicode sono:

UTF-32, con una code unit di 32 bit;
UTF-16, con una code unit di 16 bit, che è quella che utilizza i code point surrogati;
UTF-8, con una code unit di 8 bit.

UNICODE UTF-32

UTF-32 è la più semplice encoding form di Unicode. Ciascun code point è rappresentato direttamente da una sola code unit a 32 bit. Per questo, possiamo affermare che UTF-32 è una encoding form a grandezza fissa ( 32 bit ) e che ha corrispondenze uno-a-uno tra carattere codificato e code unit. Come tutte le encoding form di Unicode, UTF-32 si limita a rappresentare i code point compresi nell'intervallo numerico 0 .. 10FFFF ( in esadecimale ), che è il codespace di Unicode. Questo per garantire la interoperabilità con gli altri due encoding forms: UTF-16 e UTF-8.


	00000000 00000000 00000000 00000000 ( U+00000000 )
	00000000 00010000 11111111 11111111 ( U+0010FFFF )

Questo comporta che in UTF-32 il byte più significativo avrà sempre tutti i bit a zero, perchè l'insieme dei numeri rappresentabili con 32 bit è molto più grande dell'insieme che coincide con il codespace di Unicode. In UTF-32, il valore di ciascuna code unit coincide esattamente con il corrispondente code point Unicode ( perchè la code unit di UTF-32 è a 32 bit, coincidente con la code unit utilizzata dalla maggior parte dei sistemi per rappresentare i numeri ), mentre, come vedremo tra poco, in UTF-16 e UTF-8 il valore di una o più code unit può rendere irriconoscibile il valore del code point corrispondente. Per esempio, ecco come viene rappresentato il code point U+10000 in UTF-32 e in UTF-8 ( dove la code unit è a 8 bit, generando quindi 4 code unit per rappresentare il code point ):


	00000000 00000001 00000000 00000000 ( U+00 01 00 00 - UTF-32)
	11110000 10010000 10000000 10000000 ( U+F0 90 80 80 - UTF-8)

Con UTF-32 è semplice determinare un carattere Unicode partendo dalla sua rappresentazione come code unit. Al contrario, le codifiche UTF-16 e UTF-8 spesso richiedono una conversione delle code unit prima di poter identificare il carattere Unicode rappresentato. UTF-32 può essere preferibile là dove lo spazio disco e la memoria non rappresentano un problema ( perchè UTF-32 utilizza 32 bit anche per rappresentare il code point U+01 ), e dove sia auspicabile l'uso di una singola code unit a grandezza fissa per accedere ai caratteri, come ad esempio accade su molte piattaforme Unix.

UNICODE UTF-16

UTF-16 è il diretto discendente del primo Unicode, quello originariamente strutturato ad utilizzare esclusivamente una encoding form a grandezza fissa ( 16 bit ). Come abbiamo visto in precedenza, nell'encoding form UTF-16 i code point che cadono nell'intervallo che va da U+0000 fino a U+FFFF ( 65535 in annotazione decimale ) vengono rappresentati come una singola code unit a 16 bit. I code point posti nell'intervallo compreso tra U+10000 ( 65536 in annotazione decimale ) e U+10FFFF ( 1.114.111 in annotazione decimale ), sono rappresentati come coppie di code point a 16 bit ( i surrogati ). I 2048 code point surrogati, che troviamo all'interno dell'intervallo numerico U+0000 ... U+FFFF, non saranno mai assegnati da Unicode ad un carattere, proprio perchè ciascuno di essi può assumere significato solo se abbinato ad un altro code point surrogato. Quindi, i code point assegnabili ad un carattere come singole code unit a 16 bit ( definiti, nello standard Unicode, Unicode scalar value ) sono, in realtà:


	65536 - 2048 = 63488

Per questi 63488 code point di UTF-16 valgono le stesse considerazioni fatte per UTF-32: il valore di ciascuna code unit coincide esattamente con il corrispondente code point Unicode ( perchè la code unit di UTF-16 è a 16 bit, coincidente con la code unit utilizzata dalla maggior parte dei sistemi per rappresentare i numeri fino a 65535 ). Quindi, per tutti i code point di UTF-16 compresi nell'intervallo numerico 0 ... 65535 non ci sarà bisogno di alcuna conversione. Bisogna aggiungere che, in media, più del 99 percento di tutti i code point UTF-16 assegnati sono espressi in singole code unit ( a 16 bit ). Come conseguenza, la gran parte delle operazioni di scansione del testo non richiederanno alcuna conversione di coppie di surrogati. Per molte operazioni, quindi, UTF-16 è semplice da gestire quanto UTF-32. Inoltre, lavorando con code unit a 16 bit, UTF-16 ha bisogno della metà della memoria richiesta da UTF-32. Di converso, la distinzione tra caratteri rappresentati con una sola code unit a 16 bit e caratteri rappresentati da coppie di code unit a 16 bit, rende UTF-16 una encoding form a dimensione variabile. Questo fatto può creare alcune difficoltà nelle implementazioni, se non se ne tiene conto con cura. UTF-16 è talvolta più complicato da gestire di UTF-32. La distribuzione dei bit per l'encoding form di UTF-16 varia a seconda che il code point sia compreso nell'intervallo numerico 0 ... 65535 piuttosto che nell'intervallo superiore: 65536 ... 1.114.111. Nel primo caso, abbiamo:


	xxxxxxxx xxxxxxxx => xxxxxxxx xxxxxxxx

che esprime perfetta identità tra code point e code unit. Quindi, il code point Unicode U+0430 ( 1072 in notazione decimale ) sarà espresso, in UTF-16, dalla code unit U+0430:


	00000100 00110000

Nel secondo caso, invece, deve intervenire una trasformazione:


	000uuuuu xxxxxxxxxxxxxxxx => 110110wwwwxxxxxx 110111xxxxxxxxxx

In questo esempio, vediamo un modello di un code point:


	000uuuuu xxxxxxxxxxxxxxxx

decomposto nella coppia corrispondente di code point surrogati, secondo l'encoding form UTF-16:


	110110wwwwxxxxxx 110111xxxxxxxxxx

Noterete che il risultato è composto da due code unit a 16 bit. Perchè il code point originario viene rappresentato come un byte ( 8 bit ) + una word ( 16 bit )? La spiegazione è semplice: il valore massimo che un code point Unicode può assumere è: U+10FFFF ( 1.114.111 in annotazione decimale ), quindi:


	00010000 1111111111111111

Questa quantità è quindi rappresentabile con soli 3 byte, di cui il più significativo ha sempre i tre bit più significativi a zero! Solo i bit dal ventunesimo al primo possono assumere valori differenti. Quindi, seguendo il modello di trasformazione UTF-16, abbiamo che:

il leading surrogate risultante dalla conversione inizia sempre con gli ultimi 6 bit ( su 16 a disposizione ), i più significativi, impostati a:
```
	110110
```
che informano il programma che sta ricevendo lo streaming di bit che quella code unit non ha alcun significato se non interpretata insieme alla code unit immediatamente successiva.
i successivi 4 bit del leading surrogate risultante dalla conversione, vengono impostati a:
```
	wwww	( wwww = uuuuu - 1 )
```
Nel nostro caso ( stiamo lavorando sui numeri binari, cioè sulle sequenze di bit ):
```
	wwww = 10000
	10000 - 1 = 1111
```
Quindi, gli ultimi 10 bit del leading surrogate risultante dalla conversione saranno:
```
	1101101111
```
i restanti 6 bit del leading surrogate risultante dalla conversione vengono impostati con lo stesso valore dei 6 bit più significativi della word che compone il code point, nel nostro caso:
```
	111111
```
Quindi, il leading surrogate risultante dalla conversione sarà:
```
	1101101111111111
```
Ora non resta che impostare i bit del trailing surrogate risultante dalla conversione, che secondo il modello UTF-16 è composta dalla sequenza 110111 seguita dai restanti 10 bit della word che compone il code point:
```
1101111111111111
```
Quindi, secondo UTF-16, il code point U+10FFFF è rappresentato dalla seguente sequenza di due code unit a 16 bit ( leading surrogate + trailing surrogate ):
```
1101101111111111 1101111111111111 ( DB FF DF FF )
```

Seguiamo ora un altro esempio, per verificare se la nostra comprensione è corretta. Code point: U+10302 ( 66306 in notazione decimale ):


000uuuuu xxxxxxxxxxxxxxxx
00000001 0000001100000010

Leading surrogate:


110110wwwwxxxxxx
1101100000000000 ( D800 ) perchè wwww = uuuuu - 1 = 00001 - 1 = 0000

Trailing surrogate:


110111xxxxxxxxxx
1101111100000010 ( DF02 )

Quindi, secondo UTF-16, il code point U+10302 è rappresentato dalla seguente sequenza di due code unit a 16 bit ( leading surrogate + trailing surrogate ):


1101100000000000 1101111100000010 ( D800 DF02 )

A questo punto, dovrebbe essere chiaro il compito affidato dallo standard Unicode ai code point surrogati. Visto che Unicode dovrebbe essere codificato a 16 bit, qualsiasi programma che catturi il flusso di bit in arrivo per poi interpretarlo, suddividerà il flusso di bit in gruppi di 16 bit. Quindi, il leading surrogate dovrà contenere, oltre ad una parte del reale code point da rappresentare, anche un "avviso" destinato al programma di decodifica: attenzione: questa code unit a 16 bit NON è un carattere, ma deve essere interpretata e decodificata insieme alla code unit a 16 bit in arrivo subito dopo questa! L'avviso, in UTF-16, è rappresentato dal gruppo di cinque bit più significativi ( 110110 ) contenuti nel leading surrogate. Ora vedremo che un meccanismo simile viene utilizzato anche nella terza encoding form di Unicode: UTF-8 ( code unit a 8 bit ).

UNICODE UTF-8

I due encoding form visti precedentemente, UTF-32 e UTF-16, pongono una serie di problemi quando si ha a che fare con sistemi fondati su code unit a 8 bit. La semplice decodifica di caratteri pone il problema di avere molti testi scritti in ASCII, che ha code unit a 8 bit, mentre la code unit minima di Unicode è a 16 bit. L'encoding form UTF-8 offre, al contrario, una piena compatibilità con i sistemi a 8 bit, proprio perchè assume una code unit a 8 bit. Naturalmente, stiamo parlando di piena compatibilità con ASCII a 7 bit, la versione standardizzata. Infatti, come per UTF-16, anche in UTF-8 almeno un bit deve essere utilizzato per attivare gli eventuali meccanismi di trasformazione. Ora siamo in grado di verificare le differenze di rappresentazione tra un encoding e l'altro. Prendiamo ad esempio un code point presente nell'intervallo U+0000 ... U+007F ( 0 ... 127 in annotazione decimale ), affinchè si possa inserire nel confronto anche ASCII a 7 bit: 4D ( lettera M ):


	ASCII:		01001101
	ISO 8859:	01001101
	UTF-8:		01001101
	UTF-16:		00000000 01001101
	UTF-32:		00000000 00000000 00000000 01001101

UTF-8 è una encoding form a grandezza variabile che assegna un code point ( o carattere o Unicode scalar value ) ad una sequenza di byte ( o code unit, che in UTF-8 sono a 8 bit ) composta da un numero variabile di byte ( da uno a quattro ), in cui i bit più significativi di ciascun byte ( quindi, di ciascuna code unit ) indicano il posto occupato dal byte ( quindi dalla code unit ) all'interno della sequenza stessa. Se la grandezza della sequenza è variabile ( da uno a quattro byte o code unit ), in UTF-8 avremo un leading element e da uno a tre trailing element. In UTF-8 non vengono utilizzati i code point surrogati, che sono una prerogativa esclusiva del modello di trasformazione ( o di distribuzione dei bit ) di UTF-16. UTF-8 prevede 4 differenti modelli di trasformazione ( o di distribuzione dei bit ). Nel considerare questi quattro modelli, ricordate che stiamo parlando di modelli di trasformazione Unicode, cioè di uno standard che era nato a 16 bit, ma che oggi deve rappresentare un intervallo numerico compreso tra U+0000 e U+10FFFF.


		 0000000000000000 ( U+0000 )
	00010000 1111111111111111 ( U+10FFFF )

Vediamo ora in dettaglio i quattro modelli di trasformazione ( o di ditribuzione dei bit ) di UTF-8.

I code point Unicode compresi nell'intervallo U+0000 .. U+007F sono convertiti in byte singoli, divenendo indistinguibili dal loro corrispondente ASCII.
```
00000000 0xxxxxxx => 0xxxxxxx
```
Quindi, tutti i code point Unicode a 16 bit che abbiano tutti i bit del byte più significativo ed il bit più significativo del byte meno significativo a zero, vengono trasformati da UTF-8 in un code point composto da una sola code unit ( byte ).

I code point compresi nell'intervallo numerico U+0080 ... U+07FF ( 128 ... 2047 in annotazione decimale ) vengono rappresentati in UTF-8 da una sequenza di due byte ( o code unit ).


00000yyy yyxxxxxx => 110yyyyy 10xxxxxx

00000000 10000000 => 11000010 10000000 ( U+0080 => C2 80 )
00000111 11111111 => 11011111 10111111 ( U+07FF => DF BF )

Da notare come il leading element ( il byte più significativo nella codifica UTF-8 ) ci dica che il code point è espresso da due code unit ( sequenza 11 dei bit più significativi ). A questa classe di caratteri appartengono le lettere accentate italiane:


À 00000000 11000000 => 11000011 10000000 ( U+00C0 => c3 80 )
Á 00000000 11000001 => 11000011 10000001 ( U+00C1 => c3 81 )

à 00000000 11100000 => 11000011 10100000 ( U+00E0 => c3 a0 )
á 00000000 11100001 => 11000011 10100001 ( U+00E1 => c3 a1 )

È 00000000 11001000 => 11000011 10001000 ( U+00C8 => c3 88 )
É 00000000 11001001 => 11000011 10001001 ( U+00C9 => c3 89 )

è 00000000 11101000 => 11000011 10101000 ( U+00E8 => c3 a8 )
é 00000000 11101001 => 11000011 10101001 ( U+00E9 => c3 a9 )

Ì 00000000 11001100 => 11000011 10001100 ( U+00CC => c3 8c )
Í 00000000 11001101 => 11000011 10001101 ( U+00CD => c3 8d )

ì 00000000 11101100 => 11000011 10101100 ( U+00EC => c3 ac )
í 00000000 11101101 => 11000011 10101101 ( U+00ED => c3 ad )

Ò 00000000 11010010 => 11000011 10010010 ( U+00D2 => c3 92 )
Ó 00000000 11010011 => 11000011 10010011 ( U+00D3 => c3 93 )

ò 00000000 11110010 => 11000011 10110010 ( U+00F2 => c3 b2 )
ó 00000000 11110011 => 11000011 10110011 ( U+00F3 => c3 b3 )

Ù 00000000 11011001 => 11000011 10011001 ( U+00D9 => c3 99 )
Ú 00000000 11011010 => 11000011 10011010 ( U+00DA => c3 9a )

ù 00000000 11111001 => 11000011 10111001 ( U+00F9 => c3 b9 )
ú 00000000 11111010 => 11000011 10111010 ( U+00FA => c3 ba )

Tutti i code point non surrogati compresi nell'intervallo numerico U+0800 ... U+FFFF ( 2048 ... 65535 in notazione decimale ) vengono rappresentati in UTF-8 da una sequenza di tre byte ( code unit ). Sappiamo che i code point surrogati, utilizzati da UTF-16 per la codifica di code point, non possono in alcun caso rappresentare un carattere. Sappiamo anche che i 2048 code point surrogati sono compresi nell'intervallo numerico U+D800 ( 55296 in notazione decimale ) ... U+DFFF ( 57343 in notazione decimale ). Quindi, possiamo affermare che: tutti i code point compresi nei seguenti intervalli numerici
```
U+0800 ... U+D7FF ( 2048 ... 55295 in notazione decimale )
U+E000 ... U+FFFF ( 57344 ... 65535 in notazione decimale )
```
vengono rappresentati in UTF-8 da una sequenza di tre byte ( code unit ).
```
zzzzyyyy yyxxxxxx => 1110zzzz 10yyyyyy 10xxxxxx

00001000 00000000 => 11100000 10100000 10000000 U+0800 => E0 A0 80
00001111 11111111 => 11100000 10111111 10111111 U+0FFF => E0 BF BF

00010000 00000000 => 11100001 10000000 10000000 U+1000 => E1 80 80
11001111 11111111 => 11101100 10111111 10111111 U+CFFF => EC BF BF

11010000 00000000 => 11101101 10000000 10000000 U+D000 => ED 80 80
11010111 11111111 => 11101101 10011111 10111111 U+D7FF => ED 9F BF

11100000 00000000 => 11101110 10000000 10000000 U+E000 => EE 80 80
11111111 11111111 => 11101111 10111111 10111111 U+FFFF => EF BF BF
```
Anche in questo caso, possiamo notare come il leading element ( il byte più significativo nella codifica UTF-8 ) ci dica che il code point è espresso da tre code unit ( sequenza 111 dei bit più significativi ).

Tutti i code point compresi nell'intervallo numerico U+10000 ... U+10FFFF ( 65536 ... 1.114.111 in notazione decimale ) vengono rappresentati in UTF-8 da una sequenza di quattro byte ( code unit ). Ricorda che questo intervallo non sarebbe rappresentabile, normalmente, con soli 16 bit ( ne servirebbero, bensì, almeno 24 ).


000uuuuu zzzzyyyy yyxxxxxx => 11110uuu 10uuzzzz 10yyyyyy 10xxxxxx

00000001 00000000 00000000 => 11110000 10010000 10000000 10000000
( U+10000 => F0 90 80 80 ) [ 65536 in decimale ]

00000011 11111111 11111111 => 11110000 10111111 10111111 10111111
( U+3FFFF => F0 BF BF BF ) [ 262143 in decimale ]

00000100 00000000 00000000 => 11110001 10000000 10000000 10000000
( U+40000 => F1 80 80 80 ) [ 262144 in decimale ]

00001111 11111111 11111111 => 11110011 10111111 10111111 10111111
( U+FFFFF => F3 BF BF BF ) [ 1.048.575 in decimale ]

00010000 00000000 00000000 => 11110100 10000000 10000000 10000000
( U+100000 => F4 80 80 80 ) [ 1.048.576 in decimale ]

00010000 11111111 11111111 => 11110100 10001111 10111111 10111111
( U+10FFFF => F4 8F BF BF ) [ 1.114.111 in decimale ]

Anche in questo caso, possiamo notare come il leading element ( il byte più significativo nella codifica UTF-8 ) ci dica che il code point è espresso da quattro code unit ( sequenza 1111 dei bit più significativi ).

TABELLE UNICODE

Il concetto fondamentale da assimilare è la relazione esistente tra Unicode e UTF-8, UTF-16, UTF-32: Unicode è il set di caratteri codificati, dove ogni carattere ( o metacarattere ) è assegnato ad un code point unico ( ci sono pochissime eccezioni dovute a problemi di compatibilità con versioni precedenti ), mentre UTF-8, UTF-16 e UTF-32 sono tre encoding forms, vale a dire tre forme differenti di distribuzione dei bit studiate per rappresentare tutti i code point di Unicode. Sottolineo questo aspetto perchè spesso si sente parlare di UTF-8 e Unicode come due set di caratteri differenti, mentre Unicode è semplicemente una tabella contenente le corrispondenze tra singoli code point e singoli caratteri, mentre UTF-8 ( come UTF-16 e UTF-32 ) è una modalità di rappresentazione di tutti i code point contenuti nella tabella Unicode. Per conoscere, quindi, la codifica di un determinato carattere in Unicode, bisogna prima di tutto recuperare la tabella Unicode e scovare il carattere ricercato ( a volte, questa semplice ricerca si rivela davvero ardua ), poi decidere in quale formato rappresentarlo: UTF-8, UTF-16 o UTF-32. Il luogo più sicuro dove trovare il code point di un carattere Unicode, è il sito dell'Unicode Consortium, alla pagina:

http://www.unicode.org/charts/

Per avere, invece, una tabella delle corrispondenze tra code point Unicode e rappresentazione UTF-8, seguire il link:

http://www.utf8-chartable.de/

I found only this chapter for this text.

Contact the author of this guide

Have you any question or suggestion or request to send to Mosè?

Send your vote!

Votes sent by users for this text: 386

Tell your Facebook friends

Is Your domain available?

Issue date

2009-July-10 00:48:10

Author

Mosè

Aruba Key Position

Free Books: select a category

Search for a title, author or keyword


Home	.bit Guides	Manuals	Manuals `++`	Video	Video `++`	Contacts	IT	Linux	apt-get
Tor, The Onion Routing