Je voulais faire quelque chose lorsque les caractères intégrés dans le PDF étaient étranges. Je veux ressembler à ci-dessous. Je veux combiner les mêmes personnages lorsqu'ils sont répétés successivement.
Ah ah → Ah Aiuueo → Aiueo ABCABCABC → ABCABCABC Consentement Yui Yui → Consentement Yui Yui
python
#On suppose que le résultat contient déjà une chaîne de caractères
result = re.sub(r"(.)\1{1,}", "\g<1>", result) #Collecter des chaînes répétitives
Formatage du texte
import re
from unicodedata import normalize
def clean_text(txt:str):
result = re.sub(r"\s| ",'',txt) #Supprimez d'abord les caractères vides pour alléger le traitement
result = normalize('NFKC', result) #Normalisation Unicode
result = re.sub(r"(.)\1{1,}", "\g<1>", result) #Collecter des chaînes répétitives
if (')(cid:' in result): #Correspondance en cas de PDF incorporé de caractères
return ''
return result
Louise
import re
text = "Louise! Louise! Louise! Ruizuuuuuuuaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa !! !!\n\
Ah ah ah ... ah ... ah! Ah ah ah ah! !! !! Louise Louise Louise Wow Wow Ah Ah! !! !!\n\
Ah Kunka Kunka! Kunka Kunka! Suha Suha! Suha Suha! Ça sent bon ... Kun\n\
Hmm! Je veux presser les cheveux blonds roses de Louise Françoise-bronzée! Kunka Kunka! Aa! !!\n\
trompé! Je veux être moelleux! Mofumofu! Mofumofu! Cheveux Cheveux Mofumofu! Croustillant Mofumofu ... Kyun Kyun Kyu! !!\n\
Le 12e volume du roman, Louise, était mignon! !! Ah ah ah ah ah ah! !! Fahhhhh! !!\n\
Je suis content que la deuxième saison de l'anime ait été diffusée, Ruiz-tan! Oh oh oh oh! mignonne! Louise! mignonne! A-aa ~ aa!"
print(re.sub(r"(.)\1{1,}", "\g<1>", text))
#Louise! Louise! Louise! Louis Wow Wow!
#Ah ... ah ... ah! Aa! Louise Louise Louise Wow!
#Ah Kunka Kunka! Kunka Kunka! Suha Suha! Suha Suha! Ça sent ... kun
#Hmm! Je veux presser les cheveux blonds roses de Louise Françoise-bronzée! Kunka Kunka! Aa!
#trompé! Je veux être moelleux! Mofumofu! Mofumofu! Cheveux moelleux! Croustillant Mofumofu ... Kyun Kyun Kyu!
#Le 12e volume du roman, Louise, était mignon! Ah ... ah ... ah! Fah!
#Je suis content que la deuxième saison de l'anime ait été diffusée, Ruiz-tan! Aa! Mignonne! Louise! Mignonne! Ahhhh!
Remplacement inversé. J'ai vu diverses choses, mais j'ai senti qu'elles étaient toutes là.
Regroupement lors de l'utilisation d'expressions régulières en Python. Pour Python, il m'a fallu un certain temps pour réaliser que je devais écrire \ g <1> au lieu de $ 1.
Recommended Posts