J'avais des problèmes car la chaîne de caractères dans le PDF était étrange

Les problèmes rencontrés

Lorsque j'essaie d'obtenir la chaîne de caractères du PDF, des caractères étranges sont parfois inclus. Même si j'essaie de trouver un endroit correspondant en recherchant, cela ne fonctionne pas.

Copiez et collez la chaîne de caractères suivante dans le Bloc-notes!

Haute altitude Mida Mt.

N'est-ce pas différent? Il avait exactement la même apparence sur la console, il m'a donc fallu un certain temps pour comprendre pourquoi je ne pouvais pas le trouver.

La cause semble être Unicode

J'ai oublié comment j'ai cherché et comment je suis arrivé, mais je l'ai mentionné ici. https://qiita.com/korkewriya/items/e747253b715f41febfc4

Résolu avec le code suivant


#On suppose que le résultat contient déjà une chaîne de caractères
from unicodedata import normalize
result = normalize('NFKC', result)  #Normalisation Unicode

Recommended Posts

J'avais des problèmes car la chaîne de caractères dans le PDF était étrange
J'avais des ennuis parce que je ne pouvais pas pousser avec heroku
J'étais en difficulté car le comportement du conteneur docker n'a pas changé
Découvrez combien de chaque caractère est dans la chaîne.
[Golang] Vérifiez si une chaîne de caractères spécifique est incluse dans la chaîne de caractères
Je me suis perdu dans le labyrinthe
J'ai participé au tour de qualification ISUCON10!
J'ai écrit la file d'attente en Python
J'ai écrit la pile en Python
Récupérer la chaîne de requête (chaîne de requête) avec Django
Je veux convertir par lots le résultat de "chaîne de caractères" .split () en Python
Le nom du fichier était mauvais en Python et j'étais accro à l'importation
[Introduction à Python] Une explication approfondie des types de chaînes de caractères utilisés dans Python!
[Pandas] Développer les chaînes de caractères en DataFrame
J'ai essayé de sauvegarder les données récupérées au format CSV!
Tri sélect écrit en C
Je ne peux pas obtenir l'élément dans Selenium!
Échapper les crochets ondulés dans la chaîne de format
[PowerShell] Obtenez la lecture de la chaîne de caractères
J'ai écrit l'aile coulissante dans la création.
Je suis tombé sur un code de caractère lors de la conversion de CSV en JSON avec Python
Divise la chaîne de caractères par le nombre de caractères spécifié. En Ruby et Python.
J'ai été en vain parce que je n'ai pas pu obtenir de commande parent avec pybitflyer
Une fenêtre étrange apparaît lors de l'utilisation de la boîte de dialogue Ouvrir le répertoire dans Tkinter