Les données sans contexte ne sont qu'une liste de nombres. Afin de faire bon usage des données disponibles, il est nécessaire de collecter un large éventail d'informations telles que le mécanisme du phénomène derrière les données, le contexte historique et l'environnement. Ensuite, sur la base de ces informations, collectez plus de données avec des idées gratuites.
Les données n'ont pas de sens simplement en les collectant. Les caractéristiques peuvent être vues en comparant. Le calcul de la moyenne ou de la variance s'appelle l'obtention d'une statistique récapitulative. De plus, un diagramme de fréquence et un graphique linéaire sont dessinés pour visualiser les données afin de saisir les caractéristiques des données.
Lorsque le tableau d'ensemble du phénomène peut être vu en utilisant une telle méthode d'analyse, la méthode statistique est finalement utilisée. Dans ce cas, le but de l'analyse doit être clair. gros
Pour ajouter à la comparaison, la comparaison nécessite certains critères. Il y a deux façons de faire ça. La première consiste à rechercher cette norme de l'extérieur. Ceci est une comparaison avec le vrai modèle. Mais c'est presque impossible. Par conséquent, comparez-le avec les données disponibles. Cela correspond à l'utilisation de la distribution t ou de l'analyse de dispersion.
Le terme modèle est déjà apparu, mais en un mot, c'est une distribution de probabilité. C'est l'une des méthodes d'expression d'un phénomène stochastique, et exprime comment un phénomène se produit avec une certaine probabilité. Cependant, il est rare que le phénomène réel suive une telle distribution de probabilité. En effet, les phénomènes que vous voyez réellement sont légèrement différents selon chaque situation. En outre, les données peuvent contenir du bruit observé. Par conséquent, considérez un modèle de distribution conditionnelle. Et le représentant d'un tel modèle est l'analyse de régression. Il existe de nombreuses bibliothèques de statsmodels qui conviennent à une telle analyse.
Modèles de régression linéaire dans les modèles de statistiques
Japonais | statsmodels |
---|---|
Méthode du carré minimum | OLS |
Méthode des moindres carrés pondérés | WLS |
Méthode du carré minimum généralisé | GLS |
Méthode des moindres carrés récursive | Recursive LS |
Il est estimé par quatre méthodes. $ x $ est la variable explicative et $ e $ est l'erreur. $ y $ est la variable dépendante et est modélisée comme une combinaison linéaire de $ x $. Pour que le modèle obtenu par la méthode des moindres carrés soit plausible, l'erreur
Est imposé. GLS est un modèle qui peut gérer l'inhomogénéité de la dispersion dans laquelle la dispersion des erreurs n'est pas constante et les erreurs avec autocorrélation dans lesquelles les erreurs sont corrélées. WLS traite de l'inhomogénéité de la dispersion et LS récursif est une erreur avec autocorrélation. Traite avec. Le coefficient de régression est estimé en apportant divers ajustements au problème des erreurs qui ne peuvent pas satisfaire les conditions de ces modèles et en satisfaisant ces conditions.
Quand on dit régression linéaire
De plus, il existe un modèle linéaire généralisé dans lequel la distribution de $ y $ est spécifiée comme une famille de distribution exponentielle et le résidu est une distribution arbitraire. En tant que développement ultérieur de cette
etc. L'OLS est utilisé pour la régression linéaire, mais le coefficient de régression est estimé à l'aide de la méthode la plus probable ou d'une méthode similaire au modèle linéaire généralisé et à son développement.