Prenez des notes sur les éléments fréquemment utilisés pour la tabulation de base et prévoyez de les mettre à jour à tout moment
from sklearn import datasets
import pandas as pd
from collections import OrderedDict
iris = datasets.load_iris()
df = pd.concat([pd.DataFrame(iris.data,columns=iris.feature_names),pd.DataFrame(iris.target,columns=["species"])],axis=1)
Je suis heureux que la récente mise à jour rende les pandas plus faciles à voir
describe
df.describe()
Des statistiques de base peuvent être sorties
df["petal length (cm)"].describe()
Peut être calculé uniquement avec la série
value_counts
df["species"].value_counts()
Peut être compté
get_dummies
pd.get_dummies(df["species"]).ix[[0,1,2,50,51,52,100,101,102]]
Des variables dites fictives peuvent être créées (Indexé pour une visualisation facile)
sort_values
df.sort_values("sepal length (cm)",ascending=False)
df peut être trié (croissant spécifie l'ordre croissant / décroissant)
df.sort_values(["sepal length (cm)","sepal width (cm)"],ascending=False)
Plusieurs spécifications sont possibles (la priorité est l'index de la liste d'arguments)
groupby
df_groupby = df.groupby("species",as_index=False)
df_groupby.mean()
Étant donné que l'objet groupby peut être réutilisé, il est plus rapide de stocker l'objet groupby dans une variable lorsque vous souhaitez appliquer plusieurs agrégations similaires.
groupby.agg
df_groupby.agg({"sepal length (cm)": "mean",
"sepal width (cm)": ["mean","count"],
"petal length (cm)": ["max","min"],
"petal width (cm)": ["sum","var","std"]})
L'agrégation individuelle pour chaque colonne est possible en spécifiant au format dictionnaire (cependant, notez que si plusieurs agrégations sont spécifiées pour une colonne, elle sera multi-colonnes).
De plus, comme il ne s'agit pas d'un ordre particulier, utilisez OrderedDict si vous souhaitez spécifier l'ordre.
df_groupby.agg(OrderedDict((["sepal length (cm)", "mean"],
["sepal width (cm)", ["mean","count"]],
["petal length (cm)", ["max","min"]],
["petal width (cm)", ["sum","var","std"]])))
to_csv
df.to_csv("test.csv",index=False,encoding="utf8")
pd.read_csv("test.csv")
Lorsque index = False, la lecture suivante est facile Parfois, il ne peut pas être lu sauf si le codage est spécifié (en particulier Windows)
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
% matplotlib inline
est une commande magique pour la visualisation dans Jupyter
sns.boxplot(data=df, x="species", y="sepal length (cm)")
pairplot
sns.pairplot(data=df)
sns.pairplot(data=df, hue="species")
Peut être divisé par segment
jointplot
sns.jointplot(data=df, x="sepal length (cm)", y="sepal width (cm)", kind="kde")
distplot
sns.distplot(df["sepal length (cm)"], rug=True,)
Recommended Posts