3-3, chaîne Python et code de caractère

Code de caractère

La chaîne de caractères est Code de caractère, Cela devient un type de données spécial.

Étant donné que l'ordinateur ne peut traiter que des nombres, les caractères au format texte doivent être convertis en nombres. Lorsque l'ordinateur a été conçu pour la première fois, 1 octet est devenu 8 bits. L'entier maximal qui peut être affiché dans un octet est 255 (le nombre binaire 11111111 est le nombre décimal 255), et un grand nombre d'octets sont nécessaires pour afficher un entier plus grand. Par exemple, le nombre entier maximal pouvant être affiché sur 2 octets est 65535 et 4 octets est 4294967295.

Le développement informatique progresse principalement aux États-Unis, et le premier code de caractère normalisé n'est que de 128. Ce code de caractère s'appelle ASCII et peut gérer tous les caractères alphanumériques, symboles, espaces, sauts de ligne, etc. utilisés en anglais. Exemple: Le code de caractère de «A» est «65» et le code de caractère de «z» est de «122».

Bien sûr, 1 octet n'est pas suffisant pour traiter le japonais, nous devons donc faire 2 octets. Cependant, comme le même code ASCII ne peut pas être utilisé, le Japon a créé un code JIS. Dans d'autres pays, les codes de caractères nationaux ont été créés sur la base de l'ASCII. En conséquence, des caractères déformés étaient affichés pour les fichiers texte dans lesquels plusieurs langues étaient mélangées.

Unicode est né pour traiter les caractères déformés. Toutes les langues ont été unifiées en un code de caractère (Unicode). Unicode est toujours en cours d'amélioration, mais tous les caractères couramment utilisés sont traités sur 2 octets.

L'ASCII de la chaîne «A» est le nombre décimal «65» et le nombre binaire «01000001». L'ASCII de la chaîne «0» est le nombre décimal «48» et le nombre binaire «00110000». (Remarque: la chaîne «0» et le nombre «0» ne sont pas identiques.) Puisque ASCII ʻA est affiché comme Unicode, 0 doit être entré avant. Le code de caractère Unicode pour ʻA est 00000000 01000001. Voici un nouveau problème. Lorsque Unicode est utilisé, les caractères déformés disparaissent, mais la quantité de données est le double de celle de ASCII pour toutes les données de texte anglais. Pour résoudre ce problème, nous avons créé un UTF-8 de longueur variable. En UTF-8, il a été converti de 1 octet à 6 octets selon la taille de 1 caractère Unicode. Il y a 1 octet pour les alphabets, 1 à 3 octets pour les kanji ordinaires et 4 à 6 octets pour les kanji rarement utilisés.

E697A 5e 110010111100101 11100110 10010111 10100101

Table des matières Mémos informatiques pour les industries non informatiques

référence: ・ Cours de code de caractère 1ère histoire du code de caractère (histoire pré-Unicode)

Gestion des codes de caractères en Python