Déterminer et traiter automatiquement l'encodage du fichier texte

Pour connaître l'encodage du texte Il semble que vous devriez essayer de décoder à partir d'une extrémité et utiliser celui qui a été décodé avec succès.

`python`


def conv_encoding(data):
    lookup = ('utf_8', 'euc_jp', 'euc_jis_2004', 'euc_jisx0213',
            'shift_jis', 'shift_jis_2004','shift_jisx0213',
            'iso2022jp', 'iso2022_jp_1', 'iso2022_jp_2', 'iso2022_jp_3',
            'iso2022_jp_ext','latin_1', 'ascii')
    encode = None
    for encoding in lookup:
      try:
        data = data.decode(encoding)
        encode = encoding
        break
      except:
        pass
    if isinstance(data, unicode):
        return data,encode
    else:
        raise LookupError

#Lecture de fichiers et enquête sur l'encodage
fp = open(path,'r')
str,encoding = None,None
try:
  str,encoding = conv_encoding(fp.read())
finally:
  fp.close()

#Modifier le contenu
...<N'importe quel code>


#Ecrire le fichier dans l'encodage d'origine
fp = open(path,'w')
try:
  fp.write(str.encode(encoding))
finally:
  fp.close()

Recommended Posts

Déterminer et traiter automatiquement l'encodage du fichier texte

Le processus d'installation d'Atom et de l'exécution de Python

Obtenez le type MIME en Python et déterminez le format de fichier

Le processus de création et d'amélioration du code Python orienté objet

Traitez le contenu du fichier dans l'ordre avec un script shell

L'histoire de Python et l'histoire de NaN

Traiter le résultat de% time,% timeit

L'histoire du "trou" dans le fichier

Traitez le fichier gzip UNLOADed avec Redshift avec Python de Lambda, gzipez-le à nouveau et téléchargez-le sur S3

Creusez le répertoire et créez une liste de chemins de répertoire + noms de fichiers

[Python scraping] Affiche l'URL et le titre du site contenant un mot-clé spécifique dans un fichier texte

Netmiko détecte automatiquement le type de périphérique réseau et exécute la commande

Ouvrez un fichier Excel en Python et coloriez la carte du Japon

Ceci et celui de la notation d'inclusion.

Implémenter une partie du processus en C ++

Vérifier l'existence du fichier avec python

Revoir le concept et la terminologie de la régression

Vérifiez que la page d'accueil de l'école est automatiquement mise à jour

Générez automatiquement des images de koala et d'ours

L'histoire d'essayer deep3d et de perdre

Définissez le nom du processus du programme Python

[Python] Récupère le code de caractère du fichier

Ajouter des lignes et du texte sur l'image

[Python3] Comprendre les bases des opérations sur les fichiers

Jouons avec Python Receive et enregistrez / affichez le texte du formulaire de saisie

Mémorandum Python: reportez-vous au texte et modifiez le nom du fichier lors de la copie du fichier cible

À propos du comportement de copy, deepcopy et numpy.copy

Résumé des différences entre PHP et Python

Compréhension complète des concepts de Bellmanford et Dyxtra

Télécharger des images à partir d'un fichier texte contenant l'URL

La réponse de "1/2" est différente entre python2 et 3

Organiser la signification des méthodes, des classes et des objets

Spécification de la plage des tableaux ruby et python

Changer la couleur des erreurs et avertissements Fabric

Comparez la vitesse d'ajout et de carte Python

Envoyer Gmail à la fin du processus [Python]

Expérimentons et laissons des preuves pour déterminer les spécifications.

Description générale des notificateurs CPUFreq core et CPUFreq

Convertir le code de caractère du fichier avec Python3

Organisez l'utilisation super basique des Autotools et de pkg-config

J'ai lu et implémenté les variantes de UKR

Déterminez le nombre de classes à l'aide de la formule Starges

Prise en compte des forces et faiblesses de Python

[Python] Déterminez le type d'iris avec SVM

Les parties sympas et regrettables de Cloud Datalab

Macports easy_install résout et exécute automatiquement la version

Obtenez la date de mise à jour du fichier de mémorandum Python.

Lorsqu'un fichier est placé dans le dossier partagé de Raspberry Pi, le processus est exécuté.

[Python] Changer la couleur du texte et la couleur d'arrière-plan d'un mot clé spécifique dans la sortie d'impression

J'ai essayé d'extraire le texte du fichier image en utilisant Tesseract du moteur OCR

Lisez le fichier csv avec le notebook jupyter et écrivez le graphique l'un sur l'autre

Vérifiez le temps de traitement et le nombre d'appels pour chaque processus avec python (cProfile)

Enregistrez le texte de toutes les notes Evernote dans SQLite à l'aide de Beautiful Soup et SQL Alchemy