En supposant que les données obtenues sont la valeur réalisée du modèle de régression linéaire </ strong> Estimer le coefficient du modèle de régression linéaire par la méthode des moindres carrés </ strong> et les résultats d'estimation suivants Et le résultat du test est obtenu.
(Ceci est un prélude à expliquer. À titre d'exemple, j'utilise la bibliothèque python et les données supprimées.)
import pandas as pd
import statsmodels.api as sm
#Évolution de la moyenne mensuelle de la concentration de dioxyde de carbone dans le monde
# (https://www.data.go.jp/data/dataset/mlit_20180523_0032)Que
df_co2 = pd.read_csv('co2.csv')
#La concentration mondiale de dioxyde de carbone n'augmente-t-elle pas d'année en année?#
#Tous les 384 points comme variables explicatives(0~383)utilisation.
df_co2['x'] = df_co2.index
X = df_co2.loc[:, ['x']]
#Concentration mensuelle de dioxyde de carbone comme variable objective(ppm)Utilisez la moyenne.
Y = df_co2.loc[:, ['ave_ppm']]
#Estimer les coefficients du modèle de régression linéaire en utilisant la méthode des moindres carrés.(Que faites-vous des données chronologiques ...)
model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()
print(results.summary())
OLS Regression Results
==============================================================================
Dep. Variable: ave_ppm R-squared: 0.983
Model: OLS Adj. R-squared: 0.983
Method: Least Squares F-statistic: 2.195e+04
Date: Tue, 24 Dec 2019 Prob (F-statistic): 0.00
Time: 00:01:54 Log-Likelihood: -840.53
No. Observations: 384 AIC: 1685.
Df Residuals: 382 BIC: 1693.
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 341.6819 0.221 1549.122 0.000 341.248 342.116
x 0.1477 0.001 148.154 0.000 0.146 0.150
==============================================================================
Omnibus: 17.898 Durbin-Watson: 0.198
Prob(Omnibus): 0.000 Jarque-Bera (JB): 10.180
Skew: -0.229 Prob(JB): 0.00616
Kurtosis: 2.347 Cond. No. 442.
==============================================================================
Ces dernières années, le nombre de personnes qui l'essaient réellement en l'appelant analyse a augmenté. Cependant, je pense que bon nombre de personnes comprennent la signification de ce résultat d'estimation. (préjudice)
Je pense qu'il y a beaucoup de gens qui disent vaguement: "C'est une variable explicative significative parce que la valeur p est inférieure à 5%! Comme supposé!" Et en fait, ne comprennent pas le sens de ce qu'ils font. Beaucoup de gens pensent que la signification statistique peut être calculée automatiquement tant qu'il existe des données dans tous les cas. Il se peut que vous ne compreniez pas la signification de la signification statistique même si vous recherchez des résultats significatifs. etc
Le modèle de régression linéaire est un modèle statistique ésotérique </ fort> qui nécessite des connaissances de base considérables pour être compris, mais avec des données et des outils d'analyse, les résultats de l'analyse peuvent être facilement générés. Je pense que cet écart est à l'origine de cette situation. ici,
D'un autre côté, il peut y avoir des gens qui pensent: "Eh bien, est-ce vrai?" Ou "Que voulez-vous dire?" Cet article s'adresse à ces personnes. (Ou pour ceux qui se demandent comment interpréter ce qui a été produit avec un outil d'analyse.)
La première fois (modèle de régression linéaire 1) est "Les données obtenues sont la valeur réalisée du modèle de régression linéaire." J'expliquerai la signification de.
Tout d'abord, de nombreuses personnes peuvent ne pas comprendre que le modèle de régression linéaire est un modèle stochastique. Le modèle de régression linéaire a une variable explicative
y_j = {\beta}_0 + {\beta}_{1}{x_{1j}} + {u_j} \\
u_j \sim N(0, \sigma^{2}), \quad i.i.d.\\
(j = 1, \cdots , n)\\
Peut être exprimé comme. [^ 1] $ y $ est la variable objective et $ x_ {1} $ est le modèle de régression linéaire des variables explicatives. Ce modèle de régression linéaire est l'un des modèles </ strong> qui peuvent être appliqués lorsque des données $ n $ pour une paire de $ y $ et $ x_ {1} $ sont obtenues. Veuillez noter que les données réelles obtenues ne peuvent pas toujours être expliquées par ce modèle.
"$ U_j \ sim N (0, \ sigma ^ {2}), \ quad iid
En passant, comme vous pouvez le voir à partir du modèle de régression linéaire ci-dessus, le modèle de régression linéaire est un modèle stochastique dans lequel la variable stochastique "$ u_j \ sim N (0, \ sigma ^ {2}), \ quad iid $" est incluse. C'est pourquoi. C'est un modèle qui contient des variables stochastiques. Ce terme $ u_j $ est appelé le terme d'erreur.
Les gens qui ne comprennent pas souvent ne voient pas ce terme d'erreur et comprennent mal que $ y $ n'est représenté que par la somme linéaire de $ \ beta_i $ et $ x $. [^ 3] C'est un modèle qui vous fait penser que c'est un modèle simple seulement ici. Je pense que c'est un malentendu car je ne comprends pas bien que la valeur des données obtenue selon le modèle de régression linéaire est la valeur réalisée de la variable stochastique.
A titre d'exemple concret, supposons que le modèle de régression linéaire que $ y_j $ suit soit $ y_j = 1 + 2 {x_ {1j}} + {u_j} $. À ce moment, si $ {x_ {1j}} = 3 $, qu'est-ce que $ y_j $? Ceux qui ne comprennent pas </ strong> ici diront que $ y_j = 7 $. Bien sûr, c'est faux. Ceux qui répondent à cela ne comprennent pas que $ y_j $ est une variable stochastique. Correctement, $ y_j = 7 + {u_j} $, donc la valeur de $ y_j $ est déterminée par la valeur de $ {u_j} $. En d'autres termes, la valeur de $ y_j $ change de temps en temps comme la valeur des dés. Cette expression est utilisée, telle que "La valeur du jet qui lance les dés est la valeur réelle des dés." La valeur de $ y_j $ réellement obtenue comme valeur de données est la valeur obtenue selon la distribution de probabilité supposée. (Si $ y_j = 7 + {u_j} $, la distribution de probabilité que $ y_j $ suit est $ N (7, \ sigma ^ {2}) $.)
Ce qui précède est l'explication de la signification que «les données obtenues sont la valeur réalisée du modèle de régression linéaire». Nous vous serions reconnaissants de bien vouloir nous faire part de vos questions, de signaler des erreurs, etc.
La prochaine fois (modèle de régression linéaire 2)
"Vous ne pouvez" assumer "que le modèle. 』
Je vais expliquer cela.
Je vous remercie.
[^ 1]: Sans supposer un modèle dans lequel le terme d'erreur suit une distribution normale, le coefficient estimé le moins carré ne suit pas la distribution normale, et le rapport de la somme des carrés des résidus à $ \ sigma ^ 2 $ ne suit pas la distribution du chi carré Je ne peux pas faire le test $ t $ que j'ai fait au tout début ...
[^ 2]: Je pense que Kubogawa Statistics (les bases de la statistique mathématique moderne) est un manuel facile à comprendre. Je ne vous dis pas de comprendre la théorie de la mesure. Je ne comprends pas non plus la théorie de la mesure. Cependant, j'aimerais comprendre le concept de distribution de probabilité.
[^ 3]: J'étais comme ça.
Recommended Posts