Pratiquer des méthodes typiques de statistiques (1)

«Les statistiques sont l'étude la plus solide» et «[Les statistiques sont l'étude la plus solide](édition pratique) par Kei Nishiuchi http://www.amazon.co.jp/dp/4478028230) »est devenu un best-seller exceptionnel avec un total cumulé de plus de 370 000 exemplaires dans la série. Je pense qu'il y a beaucoup de gens qui l'ont lu.

Dans les deux livres avant et après cela, diverses méthodes apparaissant dans les manuels de statistiques sont décrites dans "[Generalized Linear Model](http://ja.wikipedia.org/wiki/%E4%B8%80%E8%88%AC%]. E5% 8C% 96% E7% B7% 9A% E5% BD% A2% E3% 83% A2% E3% 83% 87% E3% 83% AB) »est résumé dans un tableau.

Je vais citer le tableau ici.

Un tableau résumant le modèle linéaire généralisé p170, où les statistiques sont l'étude la plus forte

1.png

Édition pratique où les statistiques sont l'étude la plus solide p344 Une version étendue d'un tableau qui fait progresser considérablement la compréhension des statistiques

1.png

Ces deux livres expliquent les méthodes statistiques souvent utilisées dans les affaires, leur signification, les idées qui en naissent et comment les utiliser.

De plus, comme trois connaissances qui ne peuvent être obtenues dans ce livre dans l'édition pratique p357 susmentionnée

  1. Pratiquez l'utilisation d'outils et de données réelles
  2. Compréhension approfondie des méthodes mathématiques
  3. Méthodes plus avancées nées ces dernières années Est listé.

À partir de ce moment, je voudrais accorder une attention particulière à 1. ci-dessus et donner un exemple basé sur des données simples lorsque je pratique le langage d'analyse que j'ai utilisé jusqu'à présent.

Cela dit, certains ont déjà été décrits jusqu'à présent, alors passons à un examen de ceux-ci.

Étude cas-témoins et test du chi carré

C'est l'histoire de "Case Control Study" de Dole et Hill, qui serait la première estimation épidémiologique.

Une enquête sur les données de 1465 patients hospitalisés atteints d'un cancer du poumon provenant d'hôpitaux à travers le Royaume-Uni entre 1948 et 1952 comme lien entre le cancer du poumon et le tabagisme était la suivante.

Nombre de personnes fumeur 非fumeur
Patient masculin du cancer du poumon 1357 1350(99.5%) 7(0.5%)
Patient de sexe masculin non cancéreux du poumon 1357 1296(95.5%) 61(4.5%)
Patiente du cancer du poumon 108 68(63.0%) 40(37.0%)
Patiente du cancer du poumon 108 49(45.4%) 59(54.6%)

Un cas en épidémiologie est un cas, c'est-à-dire un cas (patient) qui est tombé malade, et un témoin est une comparaison.

Lorsque le test du chi carré est effectué sur ces données, le résultat est le suivant.

import scipy as sp
import scipy.stats as stats

#Données masculines(Patients atteints d'un cancer du poumon et patients atteints d'un cancer non pulmonaire)
man = sp.array([[1350, 7], [1296, 61]])
#Données sur les femmes(Patients atteints d'un cancer du poumon et patients atteints d'un cancer non pulmonaire)
female = sp.array([[68, 40], [49, 59]])

def chi_squared_test(data):
    """Fonction pour effectuer le test du chi carré"""
    #Valeur du chi carré, valeur p, degré de liberté
    x2, p, dof, expected = stats.chi2_contingency(data)
    return x2, p, dof, expected

results = chi_squared_test(man)
results = chi_squared_test(female)

En conséquence, pour les hommes, la valeur du chi carré est 42,3704259482, la valeur p est 7,5523446617e-11 et le degré de liberté est 1, ce qui est une différence significative. De même, pour les femmes, la valeur du chi carré est 6,04195804196, la valeur p est 0,0139697819212 et le degré de liberté est 1, ce qui représente une différence significative.

Cela montre qu'on ne peut pas dire que la présence ou l'absence de tabagisme n'a aucun effet sur les cas de cancer du poumon.

Il continuera au suivant.

Recommended Posts

Pratiquer des méthodes typiques de statistiques (1)
Deep learning 1 Pratique du deep learning
[Statistiques] Multitraitement de l'échantillonnage MCMC
Différentes façons d'importer Mnist
Statistiques prédictives (classification des pratiques) Python
[Bases des statistiques mathématiques modernes avec python] Chapitre 3: Distribution de probabilité typique
Statistiques prédictives (pratique de la régression simple) Python