Comment unifier des données qui sont un mélange de katakana, de symboles, d'alphabets et de nombres.
référence:
https://qiita.com/shakechi/items/d12641d6cad01479785f
Comme il est gênant, lorsque CSV est ouvert avec des pandas, il est transformé en une fonction afin que le traitement pleine largeur et demi-largeur puisse être effectué pour chaque colonne. Mettez simplement le nom de la colonne dans la liste des colonnes = [] et c'est OK.
Que traiter: Faites en sorte que tous les katakana, symboles (espaces, etc.) et nombres soient en demi-largeur.
#Pré-installez pip installez jaconv avec un terminal ou un outil de ligne de commande.
import jaconv
def shori(column):
list= df[column].values.tolist()
new_list = []
for li in list:
li = jaconv.z2h(li,digit=True, ascii=True,kana=True)
new_list.append(li)
df[column] = new_list
return df[column]
##Répertoriez les noms de colonnes que vous souhaitez traiter.
columns = []
#Tournez avec pour.
for column in columns:
shori(column)
Recommended Posts