[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)

thème

Il y a eu une histoire sur le travail de gestion d'un système immobilier en tant que service, et qu'il n'y a aucune perte à faire sur le terrain. C'est pourquoi nous avons décidé de contester ensemble le fameux problème du «prix de la maison» du kaggle. J'ai donc décidé de poster le contenu de la lecture de chaque ligne sur qiita car ce serait utile plus tard si je le notais correctement. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part.

Le travail d'aujourd'hui

Préparation de la bibliothèque

J'expliquerai chaque bibliothèque une par une quand je l'ai utilisée dans le travail, donc j'ai copié ceci comme sort une fois.

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import (
    LinearRegression,
    Ridge,
    Lasso
)
%matplotlib inline

Capture de données

Le vrai travail commence à partir d'ici. Tout d'abord, lisez et formatez le fichier CSV à utiliser. Pour le moment, copiez ceci. Expliquez un par un.

#Lire les données
train = pd.read_csv('train.csv') #Données d'entraînement
test = pd.read_csv('test.csv') #données de test
#Fusionner les données d'entraînement et les données de test
train['WhatIsData'] = 'Train'
test['WhatIsData'] = 'Test'
test['SalePrice'] = 9999999999
alldata = pd.concat([train,test],axis=0).reset_index(drop=True)
print('The size of train is : ' + str(train.shape))
print('The size of test is : ' + str(test.shape))

Lire le fichier CSV

Les données sont stockées uniformément dans la colonne des variables de train

Données de test Gatch et données de train

Afficher un aperçu des données capturées

C'est tout.

C'est tout pour aujourd'hui. Je vais l'utiliser une heure par semaine pour le mettre en place, donc c'est la vitesse comme une tortue, mais merci pour votre patronage.

Recommended Posts

[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
Data Science 100 Knock ~ Bataille pour moins que les débutants part6
Data Science 100 Knock ~ Bataille pour moins que les débutants part5
Data Science 100 Knock ~ Bataille pour moins que les débutants part2
Data Science 100 Knock ~ Bataille pour moins que les débutants part1
Data Science 100 Knock ~ Battle pour moins que les débutants part9
Science des données 100 coups ~ Bataille pour moins que les débutants part7
Data Science 100 Knock ~ Bataille pour moins que les débutants part4
Science des données 100 coups ~ Bataille pour moins que les débutants part8
Data Science 100 Knock ~ Bataille pour moins que les débutants part11
[Pour les débutants] Les bases de Python expliquées par Java Gold Part 2
Comment mettre en œuvre 100 coups de science des données pour les débutants en science des données (pour Windows 10 Home)
[Pour les débutants] Les bases de Python expliquées par Java Gold Part 1