Chaîne Python
Python utilise un mécanisme appelé codecs pour convertir des caractères multi-octets en différents encodages. Il semble qu'il prend en charge non seulement le japonais mais aussi le coréen et le chinois.
Exprimé sous forme de données de 2 octets ou plus. Caractères qui ne peuvent pas être représentés par 1 octet
[a] Peut être exprimé en 1 octet [A] Ne peut pas être exprimé en 1 octet
J'ai examiné les représentatifs et les ai résumés ci-dessous
ASCII Un code de caractère qui résume les alphabets, les nombres, les symboles, etc. Il est largement utilisé dans le monde entier comme code de caractère le plus basique, et de nombreux autres codes de caractère sont implémentés pour être des extensions d'ASCII. Les caractères sont représentés par des valeurs de 7 bits (0 à 127) et 128 caractères sont enregistrés. "A" est 0x41 en ASCII (0x représente un nombre hexadécimal).
Comme c'était difficile à imaginer, j'ai extrait les lettres minuscules et les parties alphabétiques ci-dessous.
Hexagone | lettre |
---|---|
0x61 | a |
0x62 | b |
0x63 | c |
0x64 | d |
0x65 | e |
0x66 | f |
0x67 | g |
0x68 | h |
0x69 | i |
0x6a | j |
0x6b | k |
0x6c | l |
0x6d | m |
0x6e | n |
0x6f | o |
0x70 | p |
0x71 | q |
0x72 | r |
0x73 | s |
0x74 | t |
0x75 | u |
0x76 | v |
0x77 | w |
0x78 | x |
0x79 | y |
0x7a | z |
Shift_JIS C'est un code de caractère souvent utilisé pour représenter le japonais, qui résume divers caractères, y compris le japonais normalisé par la Japan Industrial Standards Research Association. Tous les caractères sont représentés par 2 octets. "A" est 0x82E0 dans Shift_JIS. UTF-8 Il s'agit du code de caractère standard le plus utilisé aujourd'hui. Tous les caractères sont représentés par 1 à 4 octets. Puisqu'il peut gérer des caractères du monde entier, il est désormais utilisé en standard. La même partie que l'ASCII est représentée par 1 octet, et les autres parties sont représentées par 2 à 6 octets, qui est une méthode de codage de longueur variable. UTF-8 est hautement compatible avec le code ASCII et est utilisé par de nombreux logiciels à travers le monde. "A" est 0xe38182 en UTF-8. Dans la version 2.x de Python, le code de caractère standard était ASCII. Dans Python version 3.x, le code de caractère standard est UTF-8, vous pouvez donc gérer le japonais sans déclarer le code de caractère.
Unicode Un code de caractère normalisé par l'Organisation internationale de normalisation (ISO) dans le cadre de l'ISO / CEI 10646. Le but est qu'il a été créé dans le but de coder qui peut être utilisé en commun dans tous les pays.
Pour convertir une chaîne en type d'octet
encode() Méthode de description 'Chaîne de caractères'.encode (' Nom de code de caractère ') * Code de caractère = "utf-8" etc.
decode() Méthode de description b'byte string'.decode ('nom de code de caractère')
Recommended Posts