Organisation des procédures de base pour l'analyse des données et le traitement statistique (4)

Le deuxième des Trois points de statistiques sociales après Dernière fois C'est une histoire de deviner la population à partir du spécimen. C'est la partie que j'ai écrite plusieurs fois, alors passons en revue.

Échantillonnage

La population entière que vous souhaitez analyser et découvrir est appelée la ** population **.

J'ai déjà écrit sur Sampling from population et Sampling method. ..

En statistique, la moyenne et la variance de la population sont rarement connues à l'avance et des tests sont utilisés pour les estimer. La nature de la population peut être étudiée avec un certain degré de confiance en échantillonnant les échantillons extraits de la population.

Il est difficile de connaître complètement la population pour plusieurs raisons.

La population est un très gros sujet, comme tout le Japon et le monde entier.
Bien que le nombre de populations ne soit pas important, une enquête à 100% n'est pas pratique car il est difficile d'inspecter tous les produits prévus ou expédiés.
Puisqu'il comprend des facteurs futurs tels que le taux de croissance économique de l'année prochaine, il ne peut pas être mesuré pour le moment et doit être estimé. Etc.

Estimation

Pour utiliser les données numériquement à des fins d'analyse économique réelle, d'évaluation de politiques, d'enquêtes clients, etc., vous devez connaître sa moyenne et sa diversification. La population est inconnue dans les problèmes du monde réel et sera ** estimée ** à partir de l'échantillon disponible.

** estimation d'intervalle ** estime la plage de valeurs qui inclut la population. Les principales informations requises à ce stade sont les suivantes.

Moyenne de l'échantillon
Ratio d'échantillonnage
Erreur standard estimée
De combien supprimer l'erreur d'estimation (erreur standard)

En statistique, le degré de liberté est le nombre de valeurs qui peuvent être définies librement. Freedom and Test a expliqué la définition de la liberté et son application au test.

Indépendante signifie que si vous prenez la valeur attendue du montant estimé, ce sera la valeur de la population réelle. En d'autres termes, il n'y a pas de surestimation ou de sous-estimation en moyenne. Une estimation qui satisfait cela est l '** estimateur sans biais **.

L'impartialité de la moyenne et de la variance de l'échantillon est particulièrement importante. La moyenne de l'échantillon est toujours une estimation non biaisée de la moyenne de la population.

#Préparer des échantillons de données selon 500 distributions normales
data = np.random.normal(loc=100, scale=25, size=500)

#Trouvez la moyenne
mu = np.mean(data)
#=> 99.416556898424659

#Trouvez la variance
s2 = np.var(data, ddof=1) #Dispersion impartiale
#=> 685.08664455245321

# 90%Intervalle de confiance
from scipy.stats import norm
rv = norm()
z = rv.ppf(0.995)

# 100(1-σ)%Intervalle de confiance
r = np.array([-z, z]) * np.sqrt(25/500)
#=> array([-0.36780045,  0.36780045])
mu + r
#=> array([ 99.04875645,  99.78435735]) #Estimation de section

Dans l'exemple ci-dessus, N = 500, mais à mesure que ce N augmente, il s'approche de la valeur de la distribution normale basée sur la Loi des grands nombres. ..

Tester

Si vous faites des hypothèses sur la distribution de la population, testez l'adéquation de la distribution. Pour tester s'il y a une différence dans la moyenne de la population de chaque niveau, utilisez analyds of variance.

Dans Test de l'hypothèse de variance égale [Utilisez le test de Welch dans le test t, que les variances de population soient égales ou non] (http://qiita.com/ynakayama/items/b9ec31a296de48e62863) Devrait être.

En fait, le test t sur le R moderne aboutit par défaut au test de Welch. La même chose devrait être faite pour Python (SciPy) (avec l'option equal_var = False). Cependant, il est important de savoir si la variance de la population est connue, inconnue mais égale ou non égale.

La prochaine fois, je continuerai cette histoire pour étudier la relation entre les variables.