Les problèmes rencontrés

Lorsque j'essaie d'obtenir la chaîne de caractères du PDF, des caractères étranges sont parfois inclus. Même si j'essaie de trouver un endroit correspondant en recherchant, cela ne fonctionne pas.

Copiez et collez la chaîne de caractères suivante dans le Bloc-notes!

Haute altitude Mida Mt.

N'est-ce pas différent? Il avait exactement la même apparence sur la console, il m'a donc fallu un certain temps pour comprendre pourquoi je ne pouvais pas le trouver.

La cause semble être Unicode

J'ai oublié comment j'ai cherché et comment je suis arrivé, mais je l'ai mentionné ici. https://qiita.com/korkewriya/items/e747253b715f41febfc4

Résolu avec le code suivant


#On suppose que le résultat contient déjà une chaîne de caractères
from unicodedata import normalize
result = normalize('NFKC', result)  #Normalisation Unicode

Recommended Posts

J'avais des problèmes car la chaîne de caractères dans le PDF était étrange

J'avais des ennuis parce que je ne pouvais pas pousser avec heroku

J'étais en difficulté car le comportement du conteneur docker n'a pas changé

Découvrez combien de chaque caractère est dans la chaîne.

[Golang] Vérifiez si une chaîne de caractères spécifique est incluse dans la chaîne de caractères

Je me suis perdu dans le labyrinthe

J'ai participé au tour de qualification ISUCON10!

J'ai écrit la file d'attente en Python

J'ai écrit la pile en Python

Récupérer la chaîne de requête (chaîne de requête) avec Django

Je veux convertir par lots le résultat de "chaîne de caractères" .split () en Python