Wednesday, 14 December 2016

Representation des caracteres

1. CODE ASCII
1.1 Description
Le code ASCII représente les caractères sur 7 bits. Utilisé initialement par les téléscripteurs, il est adopté par les systèmes informatiques pour coder les caractères.

Téléscripteur

La table ASCII est composée de 2 parties :

a) La première de 0 a 31 regroupe les caractères non imprimables utilisés pour le contrôle. Par exemple le caractère 12 ordonne a l'imprimante de passer au début d'une nouvelle page ; 7 cause un beep sonore dans le téléscripteur récepteur.

Table ASCII des caractères de contrôle non imprimables

b) La deuxième regroupe les caractères imprimables ASCII et leur affecte les nombres de 32 à 126. Le nombre 127 représente la commande SUPPRESSION.

Table des caractères imprimables ASCII

1.2 Table ASCII étendue
ISO-8859-1 : ou Latin-1 langues de l'Europe de l'Ouest (caractères accentués).
windows-1252 : une variation Microsoft sur le ISO-Latin-1;
ISO-8859-2 : langues de l'Europe Centrale et de l'Est ;
ISO-8859-3 : langues turcs ;
ISO-8859-4 : langues baltes (Lituanie, Biélorussie, ...) ;
ISO-8859-5 : alphabet cyrillique (russe, bulgare, ...) ;
ISO-8859-6 : arabe ;
ISO-8859-7 : grec moderne ;
ISO-8859-8 : hébreu ;
…, etc.

2. UNICODE

Avec la généralisation de l'internet, les ordinateurs, et plus particulièrement les serveurs, doivent supporter plusieurs systèmes de codage de caractères pour pouvoir voir cohabiter, par exemple, Arabe et Chinois sur la même page web.

2.1 Code point

Unicode utilise la notation hexadécimale préfixée par « U+ » pour représenter un code point.

Exemple : le caractère A est codé U+0041.

2.2 Formes d'encodage

UTF-16 : Utilise généralement deux octets pour représenter les caractères. (problème (pour qui ? Non, on ne fait pas de politique ici!) : incompatible avec ASCII et un texte codable en ASCII occupera le double de sa taille).
UTF-8: Utilise un nombre variable de bits selon le code point du caractère :

Exemple :

On considère la chaîne ''hé !''.

En ISO-Latin-1 les codes sont 104-233-32-33 en decimal ou 0110 1000-1110 1001-0010 0000-0010 0001 en binaire.

En UTF-8, le code point de é est U+00E9 ou (233)₁₀ (voir tables ci-apres) donc on utilise le motif

110x xxxx 10xx xxxx

Sur 11 bits 233 s’écrit 000 1110 1001 qui distribués sur le motif donnent :

1100 0011 1010 1001

Enfin la chaîne ''hé !'' sera donc encodée en UTF-8 par :

0110 1000-1100 0011 1010 1001-0010 0000-0010 0001.

Pour l'operation inverse, on essaye de décoder cette chaîne (voir tables ci-apres).

Le 1ier octet commence par zéro donc ASCII, le deuxième par 110 donc double octets et le 2ieme doit commencer par 10 ce qui est le cas. On peut alors tirer du motif double octets les bits du code point :

xxx0 0011 xx10 1001 → 000 1110 1001 → U+00E9

qui est le code point du é. Le reste c'est du code sur 1 octet (ASCII).

Annexe

Bibliographie

wikipedia
cours de Fabien Torre, Université de Lille

Suggestions de lecture (pour aller loin)

Thursday, 8 December 2016

TP7 codes source

1. exemple 1:

#include <stdio.h>
#include <string.h>
#define TailleMax 20

int main()
{
    char ch1[2*TailleMax+1]="",
         ch2[TailleMax+1]="Bonjour",
         ch3[TailleMax+1]="Bonsoir",
         ch4[]={'B','o','n','j','o','u','r','\0'};

    printf("\n Vous avez 4 chaines: \n la premiere, chaine 1, contient %s "
           "\n la deuxieme, chaine 2, contient %s"
           "\n la troisieme, chaine 3, contient %s"
           "\n enfin la quatrieme, chaine 4, contient %s.",ch1,ch2,ch3,ch4);
    printf("\n 1. Comparaison de chaine 2 a chaine 4 :%d",strcmp(ch2,ch4));
    printf("\n 2. Comparaison de chaine 2 a chaine 3 :%d",strcmp(ch1,ch2));
    printf("\n 3. Comparaison de chaine 3 a chaine 2 :%d",strcmp(ch2,ch1));
    printf("\n 4. Copions chaine 2 dans chaine 1");
    strcpy(ch1,ch2);
    printf("\n\tLa nouvelle valeur de chaine 1 est:%s",ch1);
    printf("\n 5. Réalisons une concatenation de chaine 1 avec chaine 3 dans la premiere :");
    strcat(ch1,ch3);
    printf("\n\tLa nouvelle valeur de chaine 1 est:%s",ch1);

    printf("\n 6. La longueur de chaine 1 est :%u",strlen(ch1));

    printf("\n 7. Expliquer ce qui suit:");

    ch1[10]='\0';
    printf("\n\t Longueur de chaine 1 devient :%u",strlen(ch1));
    printf("\n\t et chaine 1 est maintenant :%s",ch1);

    return 0;
}
2. exemple 2:
je l'ai perdu.
3. exemple 3:
idem
4. exemple 4:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define MAX_CHAINE 20

char myChaine2[MAX_CHAINE+1],myChaine1[MAX_CHAINE+1]="Je suis algerien";
int i;

int main()
{
    printf("\n 1. Une premiere chaine est initialisee a: %s ",myChaine1);
    printf("\n 2. Reecrire le meme texte, nous allons le mettre dans une 2ieme chaine. \n");
    fgets(myChaine2,MAX_CHAINE+1,stdin);

    printf("\n 3. Comparons les deux chaines :");
    if(strcmp(myChaine1,myChaine2)!=0)
       printf("\n pour la machine les deux chaines sont differentes");

    printf("\n 4. Essayons de voir plus clair, balisons les deux chaines."
           "\n\tLa chaine 1 contient :-->%s<--\n\tLa chaine 2 contient :-->%s<--"
           "\n Qu'est ce que vous remarquez?",myChaine1,myChaine2);
    printf("\n\n 5. Essayons de voir de plus en plus clair:");
    printf("\n La chaine 1 contient les caracteres de code ASCII:");
    for(i=0;myChaine1[i];i++)printf("%4d",myChaine1[i]);
    printf("\n La chaine 2 contient les caracteres de code ASCII:");
    for(i=0;myChaine2[i];i++)printf("%4d",myChaine2[i]);

    return 0;
}

Si vous avez des questions, n’hésitez pas a les poser.

Wednesday, 14 December 2016

Representation des caracteres

2. UNICODE

cours de Fabien Torre, Université de Lille

Thursday, 8 December 2016

TP7 codes source