charsets(7)            Miscellaneous Information Manual            charsets(7)

NOM
       charsets - Normes de jeux de caracteres et internationalisation

DESCRIPTION
       Cette page de manuel presente differentes normes de jeux de caracteres
       et la facon de les utiliser sous Linux avant qu'Unicode ne devienne
       ubiquitaire. Certains de ces renseignements sont encore utiles aux
       personnes travaillant avec des systemes ou des documents anciens.

       ASCII, GB 2312, ISO/IEC 8859, JIS, KOI8-R, KS et Unicode font partie
       des normes presentees.

       Un accent particulier est mis sur les jeux de caracteres qui etaient
       veritablement utilises dans les parametres regionaux, et non sur la
       myriade de jeux de caracteres provenant d'autres systemes.

   ASCII
       L'ASCII (American Standard Code For Information Interchange) est le jeu
       de caracteres 7 bits original, prevu pour l'anglais (americain). Il est
       aussi connu sous le nom US-ASCII. Il est decrit actuellement dans la
       norme ISO/IEC 646:1991 IRV (International Reference Version).

       Differentes variantes d'ASCII sont apparues, remplacant le dollar par
       d'autres symboles monetaires et la ponctuation par des caracteres
       accentues pour couvrir l'allemand, le francais, l'espagnol et d'autres
       langues en 7 bits. Elles sont toutes obsoletes, la glibc ne gere que
       les parametres regionaux dont le jeu de caracteres est un sur-ensemble
       d'ASCII.

       Comme Unicode, lors de l'utilisation d'UTF-8, est compatible avec
       ASCII, le texte en simple ASCII est toujours rendu correctement sur les
       systemes modernes utilisant l'UTF-8.

   ISO/IEC 8859
       L'ISO/IEC 8859 est une serie de 15 jeux de caracteres 8 bits contenant
       l'ASCII dans leur premiere moitie (7 bits), des caracteres de controle
       non imprimables entre les positions 128 et 159, et 96 symboles
       graphiques de largeur fixe aux emplacements 160 a 255.

       De tous ces jeux, le plus important est l'ISO/IEC 8859-1 (<< alphabet
       latin no 1 >>, latin-1). Il etait massivement adopte et pris en charge
       par differents systemes et est remplace au fur et a mesure par Unicode.
       Les caracteres d'ISO/IEC 8859-1 sont aussi les premiers
       256 caracteresd'Unicode.

       La prise en charge en console des autres jeux de caracteres
       ISO/IEC 8859 est disponible sous Linux, a travers des utilitaires comme
       setfont(8), qui modifient la correspondance des touches du clavier, la
       table graphique EGA et utilisent une projection personnalisee de la
       table de fonte du gestionnaire de console.

       Voici une breve description des jeux de caracteres 8859 :

       ISO/IEC 8859-1 (Latin-1)
              Le latin-1 couvre de nombreuses langues d'Europe, comme
              l'albanais, l'anglais, le basque, le danois, l'espagnol, le
              feroien, le galicien, le gallois, l'irlandais, l'islandais,
              l'italien, le norvegien, le portugais et le suedois. L'absences
              de ligatures << IJ >> et << ij >> du neerlandais et << oe >> du
              francais, ainsi que l'absence des guillemets ,,allemands"
              etaient considerees tolerables.

       ISO/IEC 8859-2 (Latin-2)
              Le latin-2 prend en charge de nombreuses langues d'Europe
              centrale et de l'Est utilisant l'alphabet latin comme
              l'allemand, le bosniaque, le croate, le hongrois, le polonais,
              le slovaque, le slovene et le tcheque. Remplacer les << <?> >>
              et << <?> >> roumains par << s >> et << t >> etait considere
              tolerable.

       ISO/IEC 8859-3 (Latin-3)
              Le latin-3 etait concu pour couvrir l'esperanto, le gallois, le
              maltais et le turc, mais ISO/IEC 8859-9 l'a ensuite supplante
              pour le turc.

       ISO/IEC 8859-4 (Latin-4)
              Le latin-4 a introduit des lettres pour les langues de l'Europe
              du Nord comme l'estonien, le letton et le lituanien, mais il a
              ete supplante par ISO/IEC 8859-10 et ISO/IEC 8859-13.

       ISO/IEC 8859-5
              Alphabet cyrillique prenant en charge le bulgare, le bielorusse,
              le macedonien, le russe, le serbe et (presque completement)
              l'ukrainien. Il n'a jamais ete beaucoup utilise, consultez les
              remarques concernant KOI8-R et KOI-U ci-dessous.

       ISO/IEC 8859-6
              Avait ete cree pour l'arabe. La table ISO/IEC 8859-6 est une
              fonte de largeur fixe de formes de lettre distinctes, mais un
              affichage correct doit combiner les lettres en utilisant leurs
              formes initiale, centrale et finale.

       ISO/IEC 8859-7
              Avait ete cree pour le grec moderne en 1987 et mis a jour en
              2003.

       ISO/IEC 8859-8
              Prend en charge l'hebreu moderne sans diacritiques (signes de
              ponctuation). Les diacritiques et l'hebreu biblique dans son
              ensemble etaient en dehors de la portee de ce jeu de caracteres.

       ISO/IEC 8859-9 (Latin-5)
              Il s'agit d'une variante du latin-1 qui remplace les lettres
              islandaises rarement utilisees par des lettres turques.

       ISO/IEC 8859-10 (Latin-6)
              Le latin-6 ajoutait les lettres inuit (Groenland) et same
              (lapon) qui manquaient au latin-4 pour couvrir toute la zone
              nordique.

       ISO/IEC 8859-11
              Prend en charge l'alphabet thai et est presque identique a la
              norme TIS-620.

       ISO/IEC 8859-12
              Ce jeu de caracteres n'existe pas.

       ISO/IEC 8859-13 (Latin-7)
              Prend en charge les langues des pays baltes, en particulier les
              caracteres lituaniens absents du latin-4.

       ISO/IEC 8859-14 (Latin-8)
              Jeu de caracteres celtique, couvrant le breton, le cornique, le
              gaelique, le gallois, l'irlandais ancien et le mannois.

       ISO/IEC 8859-15 (Latin-9)
              Le latin-9 est similaire au latin-1 largement utilise mais
              remplace les symboles les moins communs par le symbole euro et
              les lettres francaises et finlandaises qui manquaient au
              latin-1.

       ISO/IEC 8859-16 (Latin-10)
              Ce jeu de caracteres couvre de nombreuses langues d'Europe du
              Sud-Est et, ce qui est plus important, prend mieux en charge le
              roumain que le latin-2.

   KOI8-R et KOI8-U
       Le KOI8-R est un jeu de caracteres non ISO tres repandu en Russie avant
       Unicode. La premiere moitie correspond a l'ASCII, la seconde est un jeu
       de caracteres cyrilliques un peu mieux concu que l'ISO/IEC 8859-5. Le
       KOI8-U, base sur le KOI8-R, a une meilleure prise en charge de
       l'ukrainien. Aucun de ces jeux n'est compatible avec l'ISO/IEC 2022,
       contrairement aux normes ISO/IEC ISO-8859.

       La prise en charge du KOI8-R en console est disponible sous Linux, a
       l'aide d'utilitaires en mode utilisateur qui modifient la
       correspondance des touches du clavier, la table graphique EGA et
       utilisent une projection personnalisee de la table de fonte du
       gestionnaire de console.

   GB 2312
       GB 2312 est le principal jeu de caracteres normalise en Chine, utilise
       pour exprimer le chinois simplifie. Comme avec le JIS X 0208, les
       caracteres sont projetes dans une matrice 94x94 sur deux octets pour
       construire l'EUC-CN. Celui-ci est l'encodage le plus important sous
       Linux et inclut l'ASCII et le GB 2312. Remarquez que l'EUC-CN est
       souvent appele GB, GB 2312 ou CN-GB.

   Big5
       Big5 etait un jeu de caracteres populaire a Taiwan pour exprimer le
       chinois traditionnel (Big5 est a la fois un jeu de caracteres et un
       encodage). C'est un sur-ensemble de l'ASCII. Les caracteres non ASCII
       sont exprimes sur deux octets. Les octets 0xA1-0xFE sont utilises en
       preambule pour les caracteres de deux octets. Le Big5 et son extension
       etaient largement utilises a Taiwan et Hong Kong. Il n'est pas
       compatible ISO/IEC 2022.

   JIS X 0208
       JIS X 0208 est un jeu de caracteres normalise au Japon. Bien qu'il y
       ait plusieurs jeux de caracteres normalises au Japon, (comme
       JIS X 0201, JIS X 0212 et JIS X 0213), celui-ci est le plus important.
       Les caracteres sont projetes dans une matrice 94x94 de deux octets,
       dont chaque octet est dans l'intervalle 0x21-0x7E. Remarquez que
       JIS X 0208 est un jeu de caracteres, pas un encodage. Cela signifie que
       JIS X 0208 lui-meme n'est pas utilise pour exprimer des donnees de
       texte. Il est utilise comme composant pour construire un encodage comme
       EUC-JP, Shift_JIS et ISO/IEC 2022-JP. EUC-JP est le plus important
       encodage sous Linux et inclut l'ASCII et le JIS X 0208. Dans l'EUC-JP,
       les caracteres du JIS X 0208 sont exprimes sur deux octets, chacun
       etant le code JIS X 0208 plus 0x80.

   KS X 1001
       KS X 1001 est un jeu de caracteres normalise en Coree. Comme dans le
       JIS X 0208, les caracteres sont projetes dans une matrice 94x94 sur
       deux octets. KS X 1001 est utilise, comme le JIS X 0208, comme
       composant pour construire un encodage comme le EUC-KR, Johab, et
       ISO/IEC 2022-KR. EUC-KR est l'encodage le plus important sous Linux et
       inclut l'ASCII et le KS X 1001. KS C 5601 est un ancien nom pour le
       KS X 1001.

   ISO/IEC 2022 et ISO/IEC 4873
       Les normes ISO/IEC 2022 et ISO/IEC 4873 decrivent un modele de controle
       des fontes base sur le fonctionnement du VT100. Ce modele est
       (partiellement) pris en charge par le noyau Linux et xterm(1).
       Plusieurs encodages de caracteres bases sur ISO/IEC 2022 ont ete
       definis, en particulier pour le japonais.

       Il existe 4 jeux de caracteres graphiques, nommes G0, G1, G2 et G3,
       l'un d'entre eux est utilise comme jeu de caracteres en cours pour les
       codes avec le bit de poids fort a 0 (par defaut G0), et un autre est
       utilise pour les codes avec le bit de poids fort a 1 (initialement G1).
       Chaque ensemble dispose de 94 ou 96 caracteres, et est constitue de
       caracteres sur 7 bits. Ce modele utilise soit les codes 040-0177
       (041-0176), soit les codes 0240-0377 (0241-0376). G0 a toujours une
       taille de 94 caracteres et utilise les codes 041-0176.

       Le basculement entre les jeux de caracteres est effectue a travers les
       suites ^N (SO ou LS1), ^O (SI ou LS0), ESC n (LS2), ESC o (LS3), ESC N
       (SS2), ESC O (SS3), ESC ~ (LS1R), ESC } (LS2R), ESC | (LS3R). La
       fonction LSn reclame le jeu Gn pour les codes dont le bit de poids fort
       est a zero. La fonction Sn demande le jeu Gn pour les codes dont le bit
       de poids fort est a un. La fonction SSn reclame le jeu Gn (n=2 ou 3)
       pour le caractere suivant uniquement (quelle que soit la valeur du bit
       de poids fort).

       Un jeu de 94 caracteres est designe comme jeu Gn par une suite ESC ( xx
       (pour G0), ESC ) xx (pour G1), ESC * xx (pour G2), ESC + xx (pour G3),
       ou xx est un symbole ou une paire de symboles de la norme ISO/IEC 2375
       International Register of Coded Character Sets. Par exemple, ESC ( @
       selectionne le jeu de caractere ISO/IEC 646 en tant que G0, ESC ( A
       selectionne le jeu normalise au Royaume-Uni (avec la livre sterling a
       la place du diese), ESC ( B selectionne l'ASCII, ESC ( M selectionne un
       jeu de caracteres africain, ESC ( ! A selectionne les caracteres
       cubains, etc.

       Un jeu de 96 caracteres est designe comme jeu Gn par une suite ESC - xx
       (pour G1), ESC . xx (pour G2) ou ESC / xx (pour G3). Par exemple,
       ESC - G selectionne l'alphabet hebreu comme G1.

       Un jeu de caracteres multioctets est designe comme jeu Gn par une suite
       ESC $ xx ou ESC $ ( xx (pour G0), ESC $ ) xx (pour G1), ESC $ * xx
       (pour G2), ESC $ + xx (pour G3). Par exemple, ESC $ ( C selectionne les
       caracteres coreens pour le jeu G0. Le jeu de caracteres japonais
       selectionne par ESC $ B dispose d'une version plus recente selectionnee
       par ESC & @ ESC $ B.

       L'ISO/IEC 4873 reclame une utilisation precise des jeux de caracteres,
       dans laquelle G0 est fixe (toujours l'ASCII), ainsi seuls G1, G2 et G3
       peuvent etre invoques pour les codes avec un bit de poids fort a 1. En
       particulier, ^N et ^O ne sont plus utilises, ESC ( xx peut seulement
       etre utilise avec xx=B, et ESC ) xx, ESC * xx, ESC + xx sont
       equivalents a ESC - xx, ESC . xx, ESC / xx, respectivement.

   TIS-620
       Le TIS-620 est un jeu de caractere normalise en Thailande, et est un
       sur-ensemble de l'ASCII. De la meme facon que la serie des
       ISO/IEC 8859, les caracteres thais sont projetes dans l'intervalle
       0xA1-0xFE.

   Unicode
       L'Unicode (ISO/IEC 10646) est une norme destinee a representer sans
       ambiguite tous les signes ecrits de toutes les langues humaines
       connues. La structure de l'Unicode offre 21 bits pour chaque caractere.
       Comme les ordinateurs n'ont pas d'entiers avec 21 bits, Unicode est
       habituellement code en interne sur 32 bits, ou par des series d'entiers
       16 bits (UTF-16) (ne necessitant deux entiers 16 bits que pour des
       caracteres rares) ou par une serie d'octets 8 bits (UTF-8).

       Linux represente l'Unicode en utilisant le format de transfert sur
       8 bits (UTF-8). L'UTF-8 est un encodage a longueur variable. Il utilise
       un octet pour coder 7 bits, 2 octets pour 11 bits, 3 octets pour
       16 bits, 4 octets pour 21 bits, 5 octets pour 26 bits, 6 octets pour
       31 bits.

       Representons par 0, 1 ou x des bits a 0, 1 ou quelconque. Un
       octet 0xxxxxxx correspond a l'Unicode 00000000 0xxxxxxx qui indique le
       meme symbole que l'ASCII 0xxxxxxx. Ainsi, ASCII n'est pas modifie par
       UTF-8, et les gens utilisant uniquement l'ASCII ne remarqueront aucun
       changement : ni dans l'encodage, ni dans les tailles de fichiers.

       Un octet 110xxxxx represente le debut d'un code sur 2 octets, et
       110xxxxx 10yyyyyy est assemble en 00000xxx xxyyyyyy. Un octet 1110xxxx
       correspond au debut d'un code sur 3 octets, et
       1110xxxx 10yyyyyy 10zzzzzz sont assembles en xxxxyyyy yyzzzzzz. Quand
       l'UTF-8 est utilise pour encoder les 31 bits de l'ISO/IEC 10646 cette
       progression continue jusqu'a des codes sur 6 octets.

       Pour la plupart des textes en ISO/IEC 8859, cela signifie que les
       caracteres en dehors de l'ASCII sont desormais encodes sur deux octets.
       Cela tend a allonger la taille des fichiers textes ordinaires de un a
       deux pourcents. Pour le russe ou le grec, la taille des fichiers textes
       ordinaires est generalement doublee, car la plupart des caracteres sont
       en dehors de l'ASCII. Pour les utilisateurs japonais, cela signifie que
       les codes sur 16 bits couramment employes prendront desormais 3 octets.
       Des conversions algorithmiques sont possibles depuis certains jeux de
       caracteres (en particulier ISO/IEC 8859-1) vers l'Unicode, mais une
       conversion generique necessite l'utilisation de tables de conversion
       pouvant etre assez larges pour des codes sur 16 bits.

       Remarquez que l'UTF-8 se synchronise automatiquement : 10xxxxxx est la
       fin d'un code, et tout autre octet est un debut de code. Notez
       egalement que les octets ASCII dans un flux UTF-8 ne peuvent que
       representer les caracteres ASCII correspondants. En particulier il n'y
       a pas d'octet NULL (<< \0 >>) ou << / >> faisant partie d'un code plus
       grand.

       Comme l'ASCII, et, en particulier, l'octet NULL et << / >>, ne sont
       modifies, le noyau ne remarque pas que l'UTF-8 est utilise. Il n'a pas
       a se preoccuper de la signification des octets qu'il manipule.

       La gestion des flux de donnees Unicode est generalement effectuee a
       travers des tables de << sous-fontes >> correspondant a un
       sous-ensemble des caracteres Unicode. En interne, le noyau utilise
       l'Unicode pour decrire les sous-fontes chargees en memoire video. Cela
       signifie que pour une console Linux en mode UTF-8, un jeu de caracteres
       avec 512 symboles differents peut etre utilise. Ce n'est pas assez pour
       le japonais, le chinois ou le coreen, mais c'est generalement suffisant
       pour toutes les autres utilisations.

VOIR AUSSI
       iconv(1), ascii(7), iso_8859-1(7), unicode(7), utf-8(7)

TRADUCTION
       La traduction francaise de cette page de manuel a ete creee par
       Christophe Blaess <https://www.blaess.fr/christophe/>, Stephan Rafin
       <stephan.rafin@laposte.net>, Thierry Vignaud <tvignaud@mandriva.com>,
       Francois Micaux, Alain Portal <aportal@univ-montp2.fr>, Jean-Philippe
       Guerard <fevrier@tigreraye.org>, Jean-Luc Coulon (f5ibh) <jean-
       luc.coulon@wanadoo.fr>, Julien Cristau <jcristau@debian.org>, Thomas
       Huriaux <thomas.huriaux@gmail.com>, Nicolas Francois
       <nicolas.francois@centraliens.net>, Florentin Duneau
       <fduneau@gmail.com>, Simon Paillard <simon.paillard@resel.enst-
       bretagne.fr>, Denis Barbier <barbier@debian.org>, David Prevot
       <david@tilapin.org> et Gregoire Scano <gregoire.scano@malloc.fr>

       Cette traduction est une documentation libre ; veuillez vous reporter a
       la GNU General Public License version 3
       <https://www.gnu.org/licenses/gpl-3.0.html> concernant les conditions
       de copie et de distribution. Il n'y a aucune RESPONSABILITE LEGALE.

       Si vous decouvrez un bogue dans la traduction de cette page de manuel,
       veuillez envoyer un message a <debian-l10n-french@lists.debian.org>.

Pages du manuel de Linux 6.06   28 janvier 2024                    charsets(7)