3-3, chaîne Python et code de caractère

Code de caractère

La chaîne de caractères est Code de caractère, Cela devient un type de données spécial.

Étant donné que l'ordinateur ne peut traiter que des nombres, les caractères au format texte doivent être convertis en nombres. Lorsque l'ordinateur a été conçu pour la première fois, 1 octet est devenu 8 bits. L'entier maximal qui peut être affiché dans un octet est 255 (le nombre binaire 11111111 est le nombre décimal 255), et un grand nombre d'octets sont nécessaires pour afficher un entier plus grand. Par exemple, le nombre entier maximal pouvant être affiché sur 2 octets est 65535 et 4 octets est 4294967295.

Le développement informatique progresse principalement aux États-Unis, et le premier code de caractère normalisé n'est que de 128. Ce code de caractère s'appelle ASCII et peut gérer tous les caractères alphanumériques, symboles, espaces, sauts de ligne, etc. utilisés en anglais. Exemple: Le code de caractère de «A» est «65» et le code de caractère de «z» est de «122».

Bien sûr, 1 octet n'est pas suffisant pour traiter le japonais, nous devons donc faire 2 octets. Cependant, comme le même code ASCII ne peut pas être utilisé, le Japon a créé un code JIS. Dans d'autres pays, les codes de caractères nationaux ont été créés sur la base de l'ASCII. En conséquence, des caractères déformés étaient affichés pour les fichiers texte dans lesquels plusieurs langues étaient mélangées.

Unicode est né pour traiter les caractères déformés. Toutes les langues ont été unifiées en un code de caractère (Unicode). Unicode est toujours en cours d'amélioration, mais tous les caractères couramment utilisés sont traités sur 2 octets.

L'ASCII de la chaîne «A» est le nombre décimal «65» et le nombre binaire «01000001». L'ASCII de la chaîne «0» est le nombre décimal «48» et le nombre binaire «00110000». (Remarque: la chaîne «0» et le nombre «0» ne sont pas identiques.) Puisque ASCII ʻA est affiché comme Unicode, 0 doit être entré avant. Le code de caractère Unicode pour ʻA est 00000000 01000001. Voici un nouveau problème. Lorsque Unicode est utilisé, les caractères déformés disparaissent, mais la quantité de données est le double de celle de ASCII pour toutes les données de texte anglais. Pour résoudre ce problème, nous avons créé un UTF-8 de longueur variable. En UTF-8, il a été converti de 1 octet à 6 octets selon la taille de 1 caractère Unicode. Il y a 1 octet pour les alphabets, 1 à 3 octets pour les kanji ordinaires et 4 à 6 octets pour les kanji rarement utilisés.

E697A 5e 110010111100101 11100110 10010111 10100101

Table des matières Mémos informatiques pour les industries non informatiques

référence: ・ Cours de code de caractère 1ère histoire du code de caractère (histoire pré-Unicode)

Recommended Posts

3-3, chaîne Python et code de caractère
Liens et mémos de chaînes de code de caractères Python
[Python] Extraire uniquement les nombres des listes et des chaînes de caractères
[Débutant] Extraire des chaînes de caractères avec Python
code de caractère python
[Introduction à l'application Udemy Python3 +] 11. Chaîne de caractères
[Introduction à l'application Udemy Python3 +] 12. Indexation et découpage des chaînes de caractères
[Python] Diverses combinaisons de chaînes de caractères et de valeurs
[Python] Résumé de la conversion entre les chaînes de caractères et les valeurs numériques (code ascii)
[Python] Chapitre 02-02 Bases des programmes Python (gestion des chaînes de caractères)
[python] Compresser et décompresser
Astuces Python et Numpy
[Python] pip et roue
Manipulation de caractères Python Node.js
Itérateur et générateur Python
Paquets et modules Python
Intégration Vue-Cli et Python
Ruby, Python et carte
entrée et sortie python
Python et Ruby se séparent
Comparer des chaînes en Python
Inverser les chaînes en Python
Python asyncio et ContextVar
Remplacer et supprimer des chaînes
série python2 / série 3, code de caractère et instruction d'impression / ligne de commande
Manipulation des listes de caractères Python (tableaux)
Programmation avec Python et Tkinter
[Python3] Soyez prudent avec le décapage (strip, lstrip, rstrip)
Python: variables de classe et d'instance
Afficher les chaînes de caractères sans saut de ligne en python (mémo personnel)
Série Python 2 et série 3 (édition Anaconda)
Python et matériel - Utilisation de RS232C avec Python -
Python sur Ruby et Ruby en colère sur Python
Indentation Python et format de chaîne
[Python] Comment créer une liste de chaînes de caractères caractère par caractère
division des nombres réels python (/) et division des nombres entiers (//)
Installez Python et Flask (Windows 10)
Supprimer les espaces pleine largeur avant et après la chaîne (python)
À propos des objets et des classes Python
À propos des variables et des objets Python
Apache mod_auth_tkt et Python AuthTkt
Å (Ongustorome) et NFC @ Python
Apprenez à connaître les packages et les modules Python
# 2 [python3] Séparation et commentaire
Copie superficielle Python et copie profonde
Mémo tranche python et rubis
Installation de Python et grammaire de base
J'ai comparé Java et Python!
Copie superficielle Python et copie profonde
Obtenez la page Web Python, encodez et affichez les caractères
Date et heure ⇔ chaîne de caractères
À propos de Python, len () et randint ()
À propos de la date et du fuseau horaire Python
Installez Python 3.7 et Django 3.0 (CentOS)
2.x, 3.x code de caractères des séries python
Exploration Web, scraping Web, acquisition de caractères et sauvegarde d'image avec python