Liens et mémos de chaînes de code de caractères Python
À propos du code de caractère
Il existe deux types, un jeu de caractères codés et une méthode de codage de caractères.
Jeu de caractères codés
Mappage de caractères et de points de code
- Exemple: unicode, ascii
- Unicode par défaut en python3
>>> hex(ord("Ah"))
'0x3042' #unicode"Ah"Point de code
Méthode de codage des caractères
Méthode d'opération de caractère, méthode de mise en œuvre
- Exemple: utf-8, shift-jis, euc-jp
- "A" devient une chaîne d'octets différente lorsqu'il est encodé avec utf-8 et utf-16
- utf-8: 0xE3 0x81 0x82
- utf-16: 0x30, 0x42
Gestion des caractères en Python 3
--'Ah'
littéral est une chaîne unicode
--Lors de la conversion en octets `` Ah '. Encode (' utf-8 ') --Lors du retour d'octets en unicode,
bytes_moji.decode ('utf-8')`
Pour le moment, manipuler avec python2
- En python2, la conversion d'octets est effectuée par défaut ascii
--Lorsque vous essayez de convertir une chaîne de caractères japonais en fichier, une erreur se produit lorsque vous essayez de coder en octet avec l'ascii par défaut.
--doit être spécifié pour encoder avec utf-8