C'est la troisième fois que j'analyse le logement. Jusqu'à la dernière fois, le score était d'environ 0,17, et même si je changeais de modèle, il n'augmenterait plus.
Cette fois, le processus standard utilisant CRISP-DM a été utilisé.
Le processus d'analyse des données inclut KDD, qui se concentre davantage sur la partie analyse des données que CRISP-DM et CRIISP-DM en tant que processus standard (l'explication KDD est omise cette fois).
Le processus CRISP-DM se déroule dans l'ordre suivant: (1) compréhension métier → (2) compréhension des données → (3) préparation des données → (4) modélisation → (5) évaluation → (6) application. Figure 1 CRISP-DM
Je voudrais vous présenter ce que j'ai pensé de ces choses. Puisqu'il s'agit de la partie 1, je vais l'introduire plusieurs fois.
Le défi de cette compétition est de prédire le prix de la maison. J'ai donc imaginé quels facteurs allaient affecter le prix d'une maison.
==================== L'imagination suivante ===================== ** Généralement "emplacement" Proche des zones urbaines et des gares, transport pratique, logement de luxe ** ** "Taille de la maison" Superficie du site, nombre d'étages, taille du bâtiment ** ** "Inclus" avec piscine, avec court de tennis, etc. ** ** Je pense que "nouvelle construction" ou "utilisé" est assez important (quel âge est important?) ** ** Je pense que la «qualité» est un facteur important pour les matériaux. ** **
Enfin, nous examinerons le contenu de kaggle
# 1-1.Lire les données
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()
Résultat de sortie
Id | MSSubClass | MSZoning | LotFrontage | LotArea | Street | Alley | LotShape | LandContour | Utilities | ... | PoolArea | PoolQC | Fence | MiscFeature | MiscVal | MoSold | YrSold | SaleType | SaleCondition | SalePrice | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 60 | RL | 65.0 | 8450 | Pave | NaN | Reg | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 2 | 2008 | WD | Normal | 208500 |
1 | 2 | 20 | RL | 80.0 | 9600 | Pave | NaN | Reg | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 5 | 2007 | WD | Normal | 181500 |
2 | 3 | 60 | RL | 68.0 | 11250 | Pave | NaN | IR1 | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 9 | 2008 | WD | Normal | 223500 |
3 | 4 | 70 | RL | 60.0 | 9550 | Pave | NaN | IR1 | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 2 | 2006 | WD | Abnorml | 140000 |
4 | 5 | 60 | RL | 84.0 | 14260 | Pave | NaN | IR1 | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 12 | 2008 | WD | Normal | 250000 |
# 1-2.Confirmation de la structure des données
print(df_train.shape)
print(df_test.shape)
df_train.columns
Résultat de sortie (1460, 81) (1459, 80) Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType', 'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1', 'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating', 'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual', 'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual', 'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC', 'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType', 'SaleCondition', 'SalePrice'], dtype='object')
** Il existe 80 variables explicatives. ** **
Cette fois, en raison des limitations d'espace, c'est tout. La prochaine fois, nous effectuerons enfin un prétraitement des données.
Recommended Posts