[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Charset italiano



Il giorno lun, 14/05/2007 alle 14.55 +0200, Enrico La Cava ha scritto:

> Grazie per le delucidazioni, non sapevo che esistessero varie versioni
> di UTF, ma cosa cambia?

L'UTF-8 rappresenta i caratteri "normali" con un solo byte, e ha una
codifica apposta che usa da 2 a 6 (mi pare) byte per i caratteri piu`
complessi.
L'UTF-16 esiste in due versione: LSB e MSB. Usa da 2 a 4 (o 5?) byte per
rappresentare i caratteri, e le due versioni variano per l'ordine dei
byte nello stream.
L'UTF-32 e` una rappresentazione completa: usa 4 byte (una long-word)
per ogni carattere, in modo da coprire tutti i 4 miliardi di caratteri
di Unicode (2^32).

L'UTF-8 e` il piu` usato perche` (in occidente) il 95-100% dei testi
viene rappresentato con un solo byte, e la maggior parte delle accentate
e simboli con 2 byte, quindi occupa meno spazio.
Gia` per l'arabo, il russo e il giapponese si usa piu` spesso UTF-8,
perche` gran parte dei loro caratteri vengono rappresentati con 2 byte,
e solo pochissimi con 4.

L'UTF-32 non si usa praticamente mai perche` occupa un sacco di spazio.

Bye.


-- 
Alessandro Pellizzari




Reply to: