[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)

thème

Le 7ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "House Price" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. La préparation a été achevée la dernière fois, et elle est enfin au stade de l'analyse.

Le travail d'aujourd'hui

Construire un modèle prédictif

#Divisez les données fusionnées en données d'entraînement et données de test
train_ = all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
test_ = all_data[all_data['WhatIsData']=='Test'].drop(['WhatIsData','SalePrice'], axis=1).reset_index(drop=True)
#Division dans les données de formation
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
#Diviser les données de test
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)

Divisez les données fusionnées en données d'entraînement et données de test

Vérifiez du côté du train.

all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)

Tout d'abord, vérifiez le contenu de ʻall_data [all_data ['WhatIsData'] == 'Train'] `. Seul le train dans all_data est récupéré. スクリーンショット 2020-07-06 11.55.36.png

ʻAll_data [all_data ['WhatIsData'] == 'Train']. Drop (['WhatIsData', 'Id'], axis = 1) `Vérifiez le contenu WhatIsData, Id est supprimé de la colonne. スクリーンショット 2020-07-06 11.56.45.png

ʻAll_data [all_data ['WhatIsData'] == 'Train']. Drop (['WhatIsData', 'Id'], axis = 1) `Vérifiez le contenu. Réinitialiser l'index (s'il s'agit d'une image capturée, vous ne pouvez pas la voir en basculant une fois ...) スクリーンショット 2020-07-06 12.00.03.png

(À propos, le train et le test semblent avoir fait exprès de créer un tableau auparavant ... J'ai pensé qu'il était nécessaire de revoir le tableau complet de cela.)

Division dans les données de formation

train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])

Avec train_x = train_.drop ('SalePrice', axis = 1), les colonnes autres que SalePrice sont utilisées comme variables explicatives.

Préparez la variable objectif avec train_y = np.log (train_ ['SalePrice']). (N'oubliez pas la dernière conversion logarithmique)

Diviser les données de test

test_id = test_['Id']
test_data = test_.drop('Id',axis=1)

Le regardez-vous toujours? .. .. Comme prévu, la confirmation de test_id et test_data est omise ici.

Construire un modèle prédictif

Je pensais entrer, mais je suis submergé par des choses que je ne comprends pas, alors je ferai de mon mieux pour me préparer sans entrer. Recherche de mots principalement.

StandardScaler () # mise à l'échelle

[0,001, 0,01, 0,1, 1,0, 10,0, 100,0, 1000,0] # Grille de paramètres

make_pipeline (scaler, ls) #generate pipeline

C'est tout.

Est-ce à partir du point de lire tous ces devoirs en premier? Puis-je dire ce que j'ai pensé? Je pensais que c'était "la fin du jeu", mais il a dit que tout ce qu'il avait fait jusqu'à présent était un prétraitement.

Recommended Posts

[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)