Repenser le coefficient de corrélation

Lorsqu'il y a deux variables continues, dessinez un ** nuage de points ** pour prendre en compte cette relation. Comme expliqué ci-dessus, des outils tels que matplotlib et R sont utiles pour dessiner des diagrammes de dispersion.

Régression linéaire revisitée

Prenons notre revanche parce que nous l'avons couvert dans la Régression linéaire et coefficient de corrélation.

import numpy as np
import matplotlib.pyplot as plt

#Deux variables continues
v1 = np.array([24, 27, 29, 34, 42, 43, 51])
v2 = np.array([236, 330, 375, 392, 460, 525, 578])

def phi(x): #Calculez le coefficient phi, dans ce cas X=4
    return [1, x, x**2, x**3]

def f(w, x): #
    return np.dot(w, phi(x))

PHI = np.array([phi(x) for x in v2])
w = np.linalg.solve(np.dot(PHI.T, PHI), np.dot(PHI.T, v1))

ylist = np.arange(200, 600, 10)
xlist = [f(w, x) for x in ylist]

plt.xlim(20, 55)
plt.ylim(200, 600)
plt.xlabel('Age')
plt.ylabel('Price')
plt.plot(v1, v2, 'o', color="blue")
plt.plot(xlist, ylist, color="red")
plt.show()
plt.savefig("image.png ")

Les statistiques des variables continues peuvent être obtenues comme suit. C'était également dans Articles précédents.

article	une fonction	valeur
moyenne v2	np.average(v2)	413.714285714
distribution v2	np.var(v2)	11725.3469388
écart type de v2	np.std(v2)	108.283641141
Coefficient de corrélation entre v1 et v2	np.corrcoef(v1, v2)	0.96799293

Lorsque la variable X (= v1) augmente, Y (= v2) augmente également, ce que l'on appelle une corrélation positive. Dans ce cas, il existe une corrélation positive.

Relation linéaire et coefficient de corrélation

De cette manière, lorsqu'une variable change et l'autre variable change, ce qui est un changement monotone, cette relation linéaire est appelée ** relation linéaire **.

Pour être précis, le coefficient de corrélation est appelé ** coefficient de corrélation du moment du produit de Pearson **. Il existe d'autres coefficients de corrélation, mais en général, la plupart se réfèrent au coefficient de corrélation du facteur produit de Pearson.

De plus, lorsque le diagramme de dispersion a été créé, ce [système de coordonnées orthogonales](http://en.wikipedia.org/wiki/%E7%9B%B4%E4%BA%A4%E5%BA%A7%E6%A8% Le coin supérieur droit de 99% E7% B3% BB) est appelé le premier quadrant. De même, la partie supérieure gauche est le 2ème quad, la partie inférieure gauche est le 3ème quad, et la partie inférieure droite est le 4ème quad. S'il existe de nombreuses distributions dans les 1er et 3e quadrants du diagramme de dispersion dans son ensemble, la valeur totale des produits des écarts sera grande dans le sens positif.

Le nombre ** covariance ** est un nombre qui indique la force et la direction de la relation linéaire entre les variables continues et est exprimé par l'équation suivante.

Cov(X, Y) = \frac {\sum (Y_i - \overline{Y})(X_i - \overline{X})} {N - 1}

Le coefficient de corrélation du facteur produit peut être calculé en utilisant la covariance et en corrigeant avec l'écart type σ de X et Y.

r_{xy} = \frac {Cov(X, Y)} {De X\sigma × Y\sigma}

Résumé

Le coefficient de corrélation a été réorganisé et complété. Lorsque nous faisons l'hypothèse nulle qu'il n'y a pas de relation linéaire entre les deux variables, nous devons tester le coefficient de corrélation du facteur produit. Dans ce cas, l'hypothèse nulle suppose un état indépendant dans lequel la corrélation de population est 0 et la valeur d'une variable ne change pas la valeur de l'autre variable. Le degré de dissociation de l'état indépendant des données d'échantillon est utilisé pour tester si le coefficient de corrélation dans la population est égal à 0 ou non.

référence

Introduction aux statistiques sociales http://www.amazon.co.jp/dp/4595313705

Implémentons la régression linéaire bayésienne http://gihyo.jp/dev/serial/01/machine-learning/0014