Note sur le traitement des données par pandas La page d'information sur les pandas est assez abondante, c'est donc principalement un résumé de liens.
Je pense qu'il est préférable d'utiliser Jupyter (IPython) Notebook comme environnement d'exécution.
Installer python3 et Jupyter Notebook (anciennement ipython notebook) sur Windows --Qiita
$ pip install pandas
import pandas as pd
Vous pouvez créer un DataFrame avec pd.DataFrame
. Notez que le nombre de données pour chaque colonne doit correspondre.
Créer un DataFrame
df = pd.DataFrame({
'A' : [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7, 8, 9, 10],
'B' : [1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 8]
})
Lire les données et créer DataFrame
# CSV
csv_data = pd.read_csv('./path/to/hoge.csv')
# TSV
tsv_data = pd.read_csv('./path/to/hoge.csv', delimiter='\t')
Lecture et écriture de fichiers csv / tsv avec pandas | mwSoft Lire csv / tsv avec une taille de colonne non constante avec pandas: blog mwSoft Mémorandum de codage Python - Partie 3 (Maîtriser les pandas read_csv) - Voyage d'auto-considération
Processus de sélection des données des pandas Python plus en détail <Partie 1> --StatsFragments Processus de sélection des données des pandas Python plus en détail <Partie 2> --StatsFragments Processus de sélection des données des pandas Python plus en détail <Partie 2> --StatsFragments Reportez-vous aux données trame par condition dans Pandas - Qiita
data = data[['column1', 'column2']]
data = data[data.column1 == 'hoge']
data = data[data.column1.str.contains(regex)]
Pandas Python: recherchez DataFrame à l'aide d'expressions régulières --Qiita <Python, pandas> Recherche de chaîne de trame de données - Note de Nekoyuki
Supprimez les lignes qui ont même l'une des valeurs manquantes
df = df.dropna()
Spécifiez l'élément
df = df.dropna(subset=['Objet 1', 'Point 2'])
Traitement de concaténation / jointure de données de diagramme pandas Python --StatsFragments Merge, join, and concatenate — pandas 0.18.1 documentation
Tri des données
#Dans le cas d'un type
df = df.sort_values(['type de données'])
# 1 ->Trier par ordre croissant de 2
df = df.sort_values(['Type de données 1', 'Type de données 2'])
pandas.DataFrame.sort_values — pandas 0.18.1 documentation Trier par pandas-Qiita
df.rename(columns={'A': 'a'}, index={'ONE': 'one'}, inplace=True)
pandas.DataFrame.rename — pandas 0.18.1 documentation Changer le nom de ligne / nom de colonne de pandas DataFrame | nkmk log
df = df.reset_index(drop=True)
python - How to reset index in a pandas data frame? - Stack Overflow pandas.DataFrame.reset_index — pandas 0.18.1 documentation
Traiter comme du type à virgule flottante
df = df.astype(float)
Inversion de matrice
df = df.T
df.values.tolist()
python - Pandas DataFrame to list - Stack Overflow
# CSV
data.to_csv('./path/to/output.csv')
# TSV
data.to_csv('./path/to/output.csv', sep='\t')
Lecture et écriture de fichiers csv / tsv avec pandas | mwSoft
Microsoft Access (mdb) [Linux] [Python] [Pandas] Lire la base de données Microsoft Access (* .mdb) avec Pandas --Qiita
plot
chez les pandaspandas enveloppe finement matplotlib
. Jusqu'à un certain graphique peut être produit avec plot
de pandas.
Pour savoir comment générer des graphiques dans les pandas, reportez-vous à ce qui suit.
Visualization — pandas 0.18.1 documentation
Maîtriser la fonction de tracé des pandas Python-StatsFragments Si vous utilisez la fonction de tracé de Pandas en Python, c'est vraiment transparent du traitement des données à la création du graphe --Qiita
Python pandas Missing / Outlier / Discrete Handling-StatsFragments
Trois CONSEILS pour maintenir les performances des pandas Python-StatsFragments
Livre de commentaires de l'auteur de pandas O'Reilly Japan - Introduction à l'analyse de données avec Python
Recommended Posts