Cette fois, nous utiliserons pandas`
et `` re '' (modules pour l'utilisation d'expressions régulières)
import pandas as pd
import re
df = pd.read_csv("filename.csv")
Supprimer les éléments inutiles pour toute la colonne
df['Nom de colonne'] = df['Nom de colonne'].str.replace(r'(\d)', '') #Supprimer les numéros
df['Nom de colonne'] = df['Nom de colonne'].str.replace('-', '') #Supprimer le symbole
df['Nom de colonne'] = df['Nom de colonne'].str.replace('word', '') #Supprimer le mot
df['Nom de colonne'] = df['Nom de colonne'].str.strip() #Retirez les blancs au début et à la fin
df['Nom de colonne'] = df['Nom de colonne'].str.replace(r'(\d)', '').str.replace('-', '').str.replace('Ah', '').str.strip()
#Ceux-ci peuvent également être exécutés en même temps
name
Supposons que chaque élément composé de plusieurs mots existe dans la colonne
Exemple:
df['name'][0] = "I have a pen."
df['name'][1] = "She has a pen."
D'autre part, le premier mot est extrait et stocké sous forme de liste dans une nouvelle colonne appelée `` sujet ''. Exemple:
df['subject'][0] = "I"
df['subject'][1] = "She"
temp = df['name'].str.split() #Décomposer en mots
subject = [] #Créez une liste vide pour stocker les mots coupés
for item in temp:
subject.append(item[0]) #Stocker le premier mot de chaque ligne dans la liste
df['subject'] = subject #Ajouté au bloc de données d'origine avec le nom de la colonne sujet
.at[]Vous pouvez accéder à des données spécifiques en utilisant
df.at['Nom de la ligne','Nom de colonne'] = "C'est un test" df.at[numéro de ligne,'Nom de colonne'] = "C'est un test"
## 5. sortie csv
Enfin, sortez la trame de données éditée vers csv. En ajoutant ```encoding = 'utf_8_sig'` ``, les caractères déformés peuvent être évités.
df.to_csv("filename_v2.csv", encoding='utf_8_sig')
Recommended Posts