Je n'ai pas beaucoup de temps, mais je vais procéder petit à petit.
Hier, je me suis rapproché de la corrélation. Oui, Pearson
Pearsonr
sp.stats.pearsonr(student_data_math.G1,student_data_math.G3) (0.8014679320174141, 9.001430312276602e-90)
Par conséquent, plus la valeur de 0,801 qui apparaît est proche de 1, plus la corrélation entre les deux variables est forte.
Eh bien, qu'est-il arrivé au deuxième 9.001 ... alors vérifiez la référence
Returns r : float Pearson's correlation coefficient p-value : float 2-tailed p-value
The p-value roughly indicates the probability of an uncorrelated system producing datasets that have a Pearson correlation at least as extreme as the one computed from these datasets.
Eh bien, je ne suis pas sûr, alors je vais me fier au japonais
Python: vérifier la corrélation des fonctionnalités avec SciPy
Si vous vous référez à cela, il semble que la valeur p soit la probabilité supérieure, alors étudiez plus en détail
Probabilité de prédominance C'est la norme pour rejeter l'hypothèse nulle et adopter l'hypothèse alternative dans le test d'hypothèse statistique. Aussi appelé le niveau de signification. Généralement, 5% et 1% sont utilisés.
Ouaip. Est-ce vraiment japonais? Ce n'est pas clair autant que je pense, mais si la probabilité de dominance est inférieure à 5%, cela signifie que le coefficient de corrélation obtenu est un produit du hasard et doit être crédité. Je ne suis pas sûr que ma compréhension soit correcte.
Cependant, il convient de noter que pearsonr n'est efficace que lorsqu'il existe une corrélation linéaire, il n'est donc pas utile lorsque la corrélation est non linéaire. Ce n'est pas toujours bon de le faire avec pearsonr. Cela reviendra peut-être dans les prochains chapitres.
PairPlot
La syntaxe est la suivante
seaborn.pairplot( DataFrame )
Cela affichera la corrélation entre les éléments numériques dans le DataFrame sous une forme graphique. Dans l'exemple ci-dessus, 4 éléments de DataFrame sont affichés.
Un histogramme est affiché à l'intersection des axes, et un diagramme de dispersion entre les deux variables est affiché à d'autres points, et la corrélation peut être vue.
Quand j'ai essayé pairPlot sans traiter le DataFrame qui était dans l'exemple, c'est devenu comme ça
C'était trop gros pour être capturé correctement. Au fait, cela suffisait pour enregistrer la figure affichée dans un fichier
plot = sns.pairplot( DataFrame ) plot.savefig("output.png ")
Quand j'ai cherché comment le faire, je suis resté coincé avec savefig
après avoir appelé get_figure ()
, mais cela semble être la méthode lorsque la version était ancienne, et maintenant c'est une erreur.
Je vais faire les détails dans les chapitres suivants, donc je veux comprendre le sens des mots.
Variable objective: valeur numérique et variable Variable explicative: Une variable pour obtenir la variable objective. Variables utilisées pour expliquer
Une analyse de régression simple semble être résolue en supposant une équation dans laquelle la relation entre la variable objective / la variable explicative consiste en une seule variable.
Pour procéder avec ceux-ci, nous utiliserons sklearn.
J'ai une idée approximative, mais revoyons le problème global demain. Eh bien, c'est lent, mais ça ne peut pas être aidé.
Recommended Posts