Re: Charset italiano

To: debian-italian@lists.debian.org
Subject: Re: Charset italiano
From: Alessandro Pellizzari <alex@amiran.it>
Date: Mon, 14 May 2007 15:27:17 +0200
Message-id: <[🔎] 1179149237.11301.30.camel@al.mesalab.lan>
In-reply-to: <[🔎] 1179147304.3599.2.camel@debianetch>
References: <[🔎] 1179066314.5587.14.camel@debianetch> <[🔎] 1179132175.11301.6.camel@al.mesalab.lan> <[🔎] 1179147304.3599.2.camel@debianetch>

Il giorno lun, 14/05/2007 alle 14.55 +0200, Enrico La Cava ha scritto:

> Grazie per le delucidazioni, non sapevo che esistessero varie versioni
> di UTF, ma cosa cambia?

L'UTF-8 rappresenta i caratteri "normali" con un solo byte, e ha una
codifica apposta che usa da 2 a 6 (mi pare) byte per i caratteri piu`
complessi.
L'UTF-16 esiste in due versione: LSB e MSB. Usa da 2 a 4 (o 5?) byte per
rappresentare i caratteri, e le due versioni variano per l'ordine dei
byte nello stream.
L'UTF-32 e` una rappresentazione completa: usa 4 byte (una long-word)
per ogni carattere, in modo da coprire tutti i 4 miliardi di caratteri
di Unicode (2^32).

L'UTF-8 e` il piu` usato perche` (in occidente) il 95-100% dei testi
viene rappresentato con un solo byte, e la maggior parte delle accentate
e simboli con 2 byte, quindi occupa meno spazio.
Gia` per l'arabo, il russo e il giapponese si usa piu` spesso UTF-8,
perche` gran parte dei loro caratteri vengono rappresentati con 2 byte,
e solo pochissimi con 4.

L'UTF-32 non si usa praticamente mai perche` occupa un sacco di spazio.

Bye.


-- 
Alessandro Pellizzari

Reply to:

Follow-Ups:
- Re: Charset italiano
  - From: Alessandro Pellizzari <alex@amiran.it>

References:
- Charset italiano
  - From: Enrico La Cava <enrico.lacava@gmail.com>
- Re: Charset italiano
  - From: Alessandro Pellizzari <alex@amiran.it>
- Re: Charset italiano
  - From: Enrico La Cava <enrico.lacava@gmail.com>

Prev by Date: Re: libc6.1 mancante
Next by Date: Re: libc6.1 mancante
Previous by thread: Re: Charset italiano
Next by thread: Re: Charset italiano
Index(es):
- Date
- Thread