Modèle d'analyse de données Python

Modèle d'analyse de données Python

Lorsque vous travaillez sur kaggle, vous devez analyser les données et créer vos propres fonctionnalités. À ce moment-là, l'analyse des données est effectuée à l'aide du graphique. Dans cet article, je publierai un modèle pour créer des graphiques à des fins d'analyse de données.

Bibliothèque utilisée

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns

Observation de la corrélation

Diagramme de dispersion entre toutes les variables

Si vous utilisez des pandas, vous pouvez obtenir un diagramme de dispersion en une seule fois. Un histogramme est dessiné entre les mêmes variables. (Parce que les mêmes variables ne sont que des lignes droites)

from pandas.plotting import scatter_matrix
scatter_matrix(df)

image.png

Nuage de points

De plus, un diagramme de dispersion de variables spécifiques peut être facilement créé comme suit.

df.plot(kind='scatter',x='Age',y='Survived',alpha=0.1,figsize=(4,3))

image.png

Calcul du coefficient de corrélation

Coefficient de corrélation

Le coefficient de corrélation de Pearson peut être affiché en une seule fois avec corr (). Très pratique.

data1.corr()

image.png

Carte thermique des coefficients de corrélation

def correlation_heatmap(df):
    _ , ax = plt.subplots(figsize =(14, 12))
    colormap = sns.diverging_palette(220, 10, as_cmap = True)
    
    _ = sns.heatmap(
        df.corr(), 
        cmap = colormap,
        square=True, 
        cbar_kws={'shrink':.9 }, 
        ax=ax,
        annot=True, 
        linewidths=0.1,vmax=1.0, linecolor='white',
        annot_kws={'fontsize':12 }
    )
    
    plt.title('Pearson Correlation of Features', y=1.05, size=15)

correlation_heatmap(data1)

image.png

Coefficient de corrélation pour la variable objective

corr_matrix = data1.corr()
fig,ax=plt.subplots(figsize=(15,6))
y=pd.DataFrame(corr_matrix['Survived'].sort_values(ascending=False))
sns.barplot(x = y.index,y='Survived',data=y)
plt.tick_params(labelsize=10)

image.png

histogramme

Variante de toutes les variables

Vous pouvez l'obtenir d'un seul coup avec hist ().

df.hist()

image.png

Superposer l'histogramme

plt.figure(figsize=[8,6])

plt.subplot(222)
plt.hist(x = [data1[data1['Survived']==1]['Age'], data1[data1['Survived']==0]['Age']], stacked=True, color = ['g','r'],label = ['Survived','Dead'])
plt.title('Age Histogram by Survival')
plt.xlabel('Age (Years)')
plt.ylabel('# of Passengers')
plt.legend()

image.png

Description de la distribution variable

Si include = 'all', les quantités de caractéristiques qui ne sont pas des valeurs numériques sont également affichées.

data1.describe(include = 'all')

image.png

Quadrant

plt.figure(figsize=[8,6])

"""
o is treated as a Outlier.
minimun
25e centile premier quadrant
50e centile, deuxième quadrant (médiane)
75e centile, troisième quadrant
maximum
"""

plt.subplot(221)
plt.boxplot(data1['Age'], showmeans = True, meanline = True)
plt.title('Age Boxplot')
plt.ylabel('Age (Years)')

image.png

Vous pouvez consulter Boxplot pour voir s'il existe des valeurs aberrantes. Cela peut également être utilisé pour remplir les valeurs manquantes. Lorsque les valeurs aberrantes correspondent ou que la distribution est biaisée, il est préférable d'utiliser la valeur médiane plutôt que la moyenne. En revanche, si la distribution est symétrique à gauche et à droite, il peut être préférable d'utiliser la valeur moyenne.

Recommended Posts

Modèle d'analyse de données Python
Analyse de données python
Modèle de prétraitement pour l'analyse des données (Python)
Analyse de données avec python 2
Analyse de données avec Python
Mon conteneur d'analyse de données python
Python pour l'analyse des données Chapitre 4
[Python] Notes sur l'analyse des données
Notes d'apprentissage sur l'analyse des données Python
Python pour l'analyse des données Chapitre 2
Analyse de données à l'aide de pandas python
Python pour l'analyse des données Chapitre 3
Analyse de données à partir de python (visualisation de données 1)
Analyse de données à partir de python (visualisation de données 2)
Analyse des données Titanic 1
modèle argparse python
Analyse des données Titanic 3
[python] Lecture de données
[Python] Modèle Tkinter
Outil de visualisation Python pour le travail d'analyse de données
[Python] Première analyse de données / apprentissage automatique (Kaggle)
Analyse de données à partir de python (pré-traitement des données-apprentissage automatique)
J'ai suivi une formation à l'analyse de données Python à distance
Préparation à l'examen d'analyse de données certifié Python 3 Engineer
Python: analyse des séries chronologiques
Analyse des données à l'aide de xarray
Modèle Python qui effectue une analyse des journaux à une vitesse explosive
Bibliothèques de visualisation de données Python
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: chargement des données
Modèle Pro compétitif (Python)
Formation préalable à l'examen d'analyse des données de certification d'ingénieur Python 3
Analyse vocale par python
Nettoyage des données à l'aide de Python
[Python] Analyse de données, pratique du machine learning (Kaggle) -Prétraitement des données-
Analyse de données en Python: une note sur line_profiler
[Python] Flux du scraping Web à l'analyse des données
Moteur de template Jinja2 2 Python
[Tutoriel Python] Structure des données
[Python] Tri des données Numpy
Analyse d'association en Python
Analyse vocale par python
Environnement enregistré pour l'analyse des données avec Python
modèle de test unitaire python
Analyse de régression avec Python
Avoir réussi l'examen d'analyse des données de certification d'ingénieur Python
[Python] [Word] [python-docx] Analyse simple des données de diff en utilisant python
[Pour les débutants] Comment étudier le test d'analyse de données Python3
Note de lecture: Introduction à l'analyse de données avec Python
Construction d'un environnement d'analyse de données avec Python (notebook IPython + Pandas)
[Test d'analyse des données de certification d'ingénieur Python3] Examen / expérience de réussite
[CovsirPhy] Package Python COVID-19 pour l'analyse de données: modèle SIR-F
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: analyse des tendances S-R
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: modèle SIR
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: estimation des paramètres
[Livre technique] Introduction à l'analyse de données avec Python -1 Chapitre Introduction-
Exemple de données créées avec python
Gérer les données ambiantes en Python