Rechercher efficacement les paramètres optimaux (Optuna)

C'est une histoire courante pour moi d'essayer Optuna, une méthode de recherche par hyperparamètres qui serait meilleure que la recherche par grille. Le code ci-dessous fonctionne tous sur Google Colaboratory.

Installation d'Optuna

Je n'avais pas Optuna sur Google Colaboratory alors je l'ai installé. Facile.

!pip install optuna
L'installation a semblé réussie, j'ai donc commandé la déclaration d'importation suivante et vérifié l'opération.

import optuna

Exercices préparatoires

Tout d'abord, des exercices préparatoires pour comprendre le fonctionnement d'Optuna.

Minimisation de la fonction à une variable

Essayez de minimiser $ f (x) = x ^ 4 --4x ^ 3 --36x ^ 2 $.

def f(x):
    return x**4 - 4 * x ** 3 - 36 * x ** 2

Dans Optuna, la fonction objectif que vous souhaitez minimiser est définie comme suit.

def objective(trial):
    x = trial.suggest_uniform('x', -10, 10)
    return f(x)

Si vous procédez comme suit, il essaiera seulement 10 fois.

study = optuna.create_study()
study.optimize(objective, n_trials=10)
Si vous vérifiez le nombre d'essais


Vous pouvez vérifier les paramètres qui minimisent la fonction objectif comme suit.

{'x': 3.6629193285453887}

La valeur minimale de la fonction objectif est obtenue comme suit.


Les informations de l'essai ayant obtenu la valeur minimale sont obtenues de cette manière.

FrozenTrial(number=9, state=TrialState.COMPLETE, value=-499.577141711988, datetime_start=datetime.datetime(2019, 12, 13, 0, 32, 9, 926514), datetime_complete=datetime.datetime(2019, 12, 13, 0, 32, 10, 46429), params={'x': 3.6629193285453887}, distributions={'x': UniformDistribution(high=10, low=-10)}, user_attrs={}, system_attrs={'_number': 9}, intermediate_values={}, trial_id=9)

L'histoire des tentatives peut être vue de cette manière.

Essayons encore 100 fois.

study.optimize(objective, n_trials=100)
... (Omis) ...

[I 2019-12-13 00:32:22,591] Finished trial#107 resulted in value: -760.7787838740135. Current best value is -863.9855798856751 with parameters: {'x': 6.011542730094907}.
[I 2019-12-13 00:32:22,724] Finished trial#108 resulted in value: -773.0113811629133. Current best value is -863.9855798856751 with parameters: {'x': 6.011542730094907}.
[I 2019-12-13 00:32:22,862] Finished trial#109 resulted in value: -577.7178004902428. Current best value is -863.9855798856751 with parameters: {'x': 6.011542730094907}.

Maintenant le nombre d'essais


Les paramètres qui minimisent la fonction objectif et la valeur de la fonction objectif à ce moment sont

study.best_params, study.best_value
({'x': 6.011542730094907}, -863.9855798856751)

L'historique des valeurs de la fonction objectif peut être visualisé comme suit.

%matplotlib inline
import matplotlib.pyplot as plt

plt.plot([trial.value for trial in study.trials])


L'historique des paramètres peut être visualisé comme suit.

%matplotlib inline
import matplotlib.pyplot as plt

plt.plot([trial.params['x'] for trial in study.trials])


Illustrons comment la recherche de paramètres a été effectuée.

%matplotlib inline
import matplotlib.pyplot as plt

plt.plot([trial.params['x'] for trial in study.trials], 
         [trial.value for trial in study.trials],
         marker='x', alpha=0.3)
plt.scatter(study.trials[0].params['x'], study.trials[0].value, 
         marker='>', label='start', s=100)
plt.scatter(study.trials[-1].params['x'], study.trials[-1].value, 
         marker='s', label='end', s=100)
plt.scatter(study.best_params['x'], study.best_value,
         marker='o', label='best', s=100)
plt.ylabel('y (value)')


Vous pouvez voir que la zone où la valeur minimale est peu susceptible d'être attendue est définie à un niveau raisonnable et la zone sur laquelle la valeur minimale est attendue est focalisée.

Minimisation de la fonction à deux variables

Ensuite, minimisons $ f (x, y) = (x --2,5) ^ 2 + 2 (y + 2,5) ^ 2 $.

def f(x, y):
    return (x - 2.5)**2 + 2 * (y + 2.5) ** 2

Définition de la fonction que vous souhaitez minimiser

def objective(trial):
    x = trial.suggest_uniform('x', -10, 10)
    y = trial.suggest_uniform('y', -10, 10)
    return f(x, y)

Essayez 100 fois de cette façon

study = optuna.create_study()
study.optimize(objective, n_trials=100)
... (Omis) ...

[I 2019-12-13 00:32:37,321] Finished trial#97 resulted in value: 24.46020780084274. Current best value is 0.2114497716311141 with parameters: {'x': 2.286816304129357, 'y': -2.788099360851467}.
[I 2019-12-13 00:32:37,471] Finished trial#98 resulted in value: 15.832787347997524. Current best value is 0.2114497716311141 with parameters: {'x': 2.286816304129357, 'y': -2.788099360851467}.
[I 2019-12-13 00:32:37,625] Finished trial#99 resulted in value: 0.6493005675217599. Current best value is 0.2114497716311141 with parameters: {'x': 2.286816304129357, 'y': -2.788099360851467}.

Paramètres qui minimisent la fonction objectif et la valeur minimale à ce moment

study.best_params, study.best_value
({'x': 2.286816304129357, 'y': -2.788099360851467}, 0.2114497716311141)

Valeur de la fonction objective et historique des paramètres

%matplotlib inline
import matplotlib.pyplot as plt

plt.plot([trial.value for trial in study.trials], label='value')

plt.plot([trial.params['x'] for trial in study.trials], label='x')
plt.plot([trial.params['y'] for trial in study.trials], label='y')



Illustrons l'histoire des paramètres sur un plan bidimensionnel.

%matplotlib inline
import matplotlib.pyplot as plt

plt.plot([trial.params['x'] for trial in study.trials], 
         [trial.params['y'] for trial in study.trials],
         alpha=0.4, marker='x')
plt.scatter(study.trials[0].params['x'], study.trials[0].params['y'], 
         marker='>', label='start', s=100)
plt.scatter(study.trials[-1].params['x'], study.trials[-1].params['y'], 
         marker='s', label='end', s=100)
plt.scatter(study.best_params['x'], study.best_params['y'],
         marker='o', label='best', s=100)


Encore une fois, nous pouvons voir que nous nous sommes concentrés sur les domaines où nous pouvions nous attendre à la valeur minimale, avec les domaines où nous ne pouvions pas nous y attendre.

Ce qui précède est un exercice préparatoire pour comprendre facilement le fonctionnement d'Optuna.

Application à l'apprentissage automatique supervisé

À partir de là, nous appliquerons cela au réglage des hyperparamètres de l'apprentissage automatique supervisé.

Ensemble de données sur le cancer du sein

En utilisant les ensembles de données sur le cancer du sein de la bibliothèque d'apprentissage automatique Scikit-learn comme exemple, nous obtenons la variable explicative $ X $ et la variable objective $ y $ comme suit.

from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
X =
y =

Divisez en données d'entraînement et données de test.

from sklearn.model_selection import train_test_split 
#Vers les données d'entraînement / les données de test 6:Divisé au hasard par un rapport de 4
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4) 

Recherche de grille pour comparaison

En comparaison avec Optuna, nous examinerons la recherche de grille. La recherche de grille essaie toutes les combinaisons des "candidats pour les valeurs de paramètres" et sélectionne celle qui présente les meilleures performances. En utilisant lightGBM comme exemple d'apprentissage automatique supervisé, cela ressemble à ceci:

from sklearn.model_selection import GridSearchCV

# LightGBM
import lightgbm as lgb

#Paramètres pour effectuer une recherche de grille
parameters = [{

#Exécution de la recherche de grille
classifier = GridSearchCV(lgb.LGBMClassifier(), parameters, cv=3, n_jobs=-1), y_train)
Les fonctionnalités de la recherche de grille

Donc, je ne me concentrerai pas sur la recherche de ce à quoi je peux m'attendre.

LightGBM + Optuna

Maintenant, réglons ce LightGBM avec Optuna au lieu de la recherche par grille.

import numpy as np
#Fonction objective
def objective(trial):
    learning_rate = trial.suggest_loguniform('learning_rate', 0.1,0.2),
    n_estimators, = trial.suggest_int('n_estimators', 20, 200),
    max_depth, = trial.suggest_int('max_depth', 3, 9),
    min_child_weight = trial.suggest_loguniform('min_child_weight', 0.5, 2),
    min_child_samples, = trial.suggest_int('min_child_samples', 5, 20),
    classifier = lgb.LGBMClassifier(learning_rate=learning_rate, 
                                    subsample=0.8, colsample_bytree=0.8,
                                    verbose=-1, num_leaves=80), y_train)
    #return classifier.score(X_train, y_train) #Optimisation du taux de réponse correcte (train)
    return np.linalg.norm(y_train - classifier.predict_proba(X_train)[:, 1], ord=1) #Optimiser la probabilité

Je pense qu'il y a un choix quant à ce qu'il faut optimiser avec la fonction ci-dessus. Le lightGBM utilisé est un apprenant qui «classe» plutôt que «retourne».

L'utilisation de classifier.score (X_train, y_train) optimisera le taux de réponse correct (train). Le taux de réponse correct dans la classification est le nombre de données correctement classées, il ressemble donc à une valeur continue et est en fait un nombre proche d'une valeur discrète. Par exemple, si 8 sur 10 sont correctement classés, le taux de réponse correcte (train) ne change pas, que le classement soit «réponse correcte avec marge» ou «réponse correcte à la dernière minute». En d'autres termes, il est difficile pour le pouvoir de passer de la «réponse à peine correcte» à la «réponse correcte marginale».

Cela peut être évité en utilisant np.linalg.norm (y_train --classifier.predict_proba (X_train) [:, 1], ord = 1). En cela, y_train est un ensemble d'enseignants indiquant si le résultat de la classification est 0 ou 1, et classifier.predict_proba (X_train) [:, 1] est sa propre force (correspondant à la probabilité) que la prédiction soit 1. )est. En minimisant la norme L1 (je pense que la norme L2 est bien) de la différence entre ces deux valeurs, le pouvoir de rapprocher la «réponse incorrecte» de la «bonne réponse» et la «réponse à peine correcte» de la «réponse correcte marginale» Facilitez le travail.

Maintenant, commençons à apprendre. Si vous utilisez classifier.score (X_train, y_train), choisissez de le maximiser. Si vous utilisez np.linalg.norm (y_train --classifier.predict_proba (X_train) [:, 1], ord = 1), choisissez sa minimisation.

#study = optuna.create_study(direction='maximize') #Maximiser
study = optuna.create_study(direction='minimize') #Minimiser

Essayez 100 fois de cette façon

study.optimize(objective, n_trials=100)
... (Omis) ...

[I 2019-12-13 00:33:17,608] Finished trial#97 resulted in value: 1.0443245090791662. Current best value is 1.0230542364962214 with parameters: {'learning_rate': 0.11851649444429455, 'n_estimators': 176, 'max_depth': 9, 'min_child_weight': 0.50006741615294, 'min_child_samples': 8}.
[I 2019-12-13 00:33:17,871] Finished trial#98 resulted in value: 1.3997762969822483. Current best value is 1.0230542364962214 with parameters: {'learning_rate': 0.11851649444429455, 'n_estimators': 176, 'max_depth': 9, 'min_child_weight': 0.50006741615294, 'min_child_samples': 8}.
[I 2019-12-13 00:33:18,187] Finished trial#99 resulted in value: 1.1059309199723422. Current best value is 1.0230542364962214 with parameters: {'learning_rate': 0.11851649444429455, 'n_estimators': 176, 'max_depth': 9, 'min_child_weight': 0.50006741615294, 'min_child_samples': 8}.

Les paramètres qui optimisent la fonction objectif sont

{'learning_rate': 0.11851649444429455,
 'max_depth': 9,
 'min_child_samples': 8,
 'min_child_weight': 0.50006741615294,
 'n_estimators': 176}

Il est peu probable que la recherche de grille demande une valeur aussi mauvaise.

Et la valeur optimale à ce moment-là est


Les paramètres optimaux obtenus peuvent être remplacés en utilisant «** study.best_params» pour créer un classificateur accordé.

classifier = lgb.LGBMClassifier(**study.best_params,
                                subsample=0.8, colsample_bytree=0.8,
                                verbose=-1, num_leaves=80)
LGBMClassifier(boosting_type='gbdt', class_weight=None, colsample_bytree=0.8,
               importance_type='split', learning_rate=0.11851649444429455,
               max_depth=9, min_child_samples=8,
               min_child_weight=0.50006741615294, min_split_gain=0.0,
               n_estimators=176, n_jobs=-1, num_leaves=80, objective=None,
               random_state=None, reg_alpha=0.0, reg_lambda=0.0, silent=True,
               subsample=0.8, subsample_for_bin=200000, subsample_freq=0,

Apprenez avec le meilleur classificateur, y_train)
LGBMClassifier(boosting_type='gbdt', class_weight=None, colsample_bytree=0.8,
               importance_type='split', learning_rate=0.11851649444429455,
               max_depth=9, min_child_samples=8,
               min_child_weight=0.50006741615294, min_split_gain=0.0,
               n_estimators=176, n_jobs=-1, num_leaves=80, objective=None,
               random_state=None, reg_alpha=0.0, reg_lambda=0.0, silent=True,
               subsample=0.8, subsample_for_bin=200000, subsample_freq=0,

Et prédire

classifier.score(X_train, y_train)
classifier.score(X_test, y_test)

Histoire des valeurs des fonctions objectives

plt.plot([trial.value for trial in study.trials], label='value')


Historique de recherche de paramètres

for key in study.trials[0].params.keys():
    plt.plot([trial.params[key] for trial in study.trials], label=key)






C'est comme ça.

scikit-learn/MLP + Optuna

De même, réglons le perceptron multicouche scikit-learn. D'abord à partir de la recherche de grille.

from sklearn.model_selection import GridSearchCV

#Perceptron multicouche
from sklearn.neural_network import MLPClassifier
#Paramètres pour effectuer une recherche de grille
parameters = [{'hidden_layer_sizes': [8, 16, 32, (8, 8), (8, 8, 8)], 
               'solver': ['adam'], 'activation': ['relu'],
              'learning_rate_init': [0.1, 0.01, 0.001]}]
#Exécution de la recherche de grille
classifier = GridSearchCV(MLPClassifier(max_iter=10000, early_stopping=True), 
                          parameters, cv=3, n_jobs=-1), y_train)
print("Accuracy score (train): ", classifier.score(X_train, y_train))
print("Accuracy score (test): ", classifier.score(X_test, y_test))
print(classifier.best_estimator_) #Classificateur avec les meilleurs paramètres
Accuracy score (train):  0.9090909090909091
Accuracy score (test):  0.8728070175438597
MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=True, epsilon=1e-08,
              hidden_layer_sizes=32, learning_rate='constant',
              learning_rate_init=0.1, max_iter=10000, momentum=0.9,
              n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5,
              random_state=None, shuffle=True, solver='adam', tol=0.0001,
              validation_fraction=0.1, verbose=False, warm_start=False)
CPU times: user 166 ms, sys: 30.3 ms, total: 196 ms
Wall time: 3.07 s

Avec Perceptron multicouche

Parce qu'il y a un facteur appelé, c'est un peu difficile.

Correction du calque caché à 1 calque

#Fonction objective
def objective(trial):
    hidden_layer_sizes, = trial.suggest_int('hidden_layer_sizes', 8, 100),
    learning_rate_init, = trial.suggest_loguniform('learning_rate_init', 0.001, 0.1),
    classifier = MLPClassifier(max_iter=10000, early_stopping=True,
                                    solver='adam', activation='relu'), y_train)
    #return classifier.score(X_train, y_train)
    #return classifier.score(X_test, y_test)
    return np.linalg.norm(y_train - classifier.predict_proba(X_train)[:, 1], ord=1)
#study = optuna.create_study(direction='maximize')
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)
... (Omis) ...

[I 2019-12-13 00:33:47,631] Finished trial#97 resulted in value: 150.15953891394736. Current best value is 23.844866313445344 with parameters: {'hidden_layer_sizes': 79, 'learning_rate_init': 0.010242027297662661}.
[I 2019-12-13 00:33:47,894] Finished trial#98 resulted in value: 32.56506872305802. Current best value is 23.844866313445344 with parameters: {'hidden_layer_sizes': 79, 'learning_rate_init': 0.010242027297662661}.
[I 2019-12-13 00:33:48,172] Finished trial#99 resulted in value: 38.57363524502563. Current best value is 23.844866313445344 with parameters: {'hidden_layer_sizes': 79, 'learning_rate_init': 0.010242027297662661}.

{'hidden_layer_sizes': 79, 'learning_rate_init': 0.010242027297662661}
classifier = MLPClassifier(**study.best_params), y_train)
classifier.score(X_train, y_train), classifier.score(X_test, y_test)
(0.9472140762463344, 0.9122807017543859)
plt.plot([trial.value for trial in study.trials], label='score')


for key in study.trials[0].params.keys():
    plt.plot([trial.params[key] for trial in study.trials], label=key)



Correction du calque caché à 2 calques

#Fonction objective
def objective(trial):
    h1, = trial.suggest_int('h1', 8, 100),
    h2, = trial.suggest_int('h2', 8, 100),
    learning_rate_init, = trial.suggest_loguniform('learning_rate_init', 0.001, 0.1),
    classifier = MLPClassifier(max_iter=10000, early_stopping=True,
                                    hidden_layer_sizes=(h1, h2),
                                    solver='adam', activation='relu'), y_train)
    #return classifier.score(X_train, y_train)
    #return classifier.score(X_test, y_test)
    return np.linalg.norm(y_train - classifier.predict_proba(X_train)[:, 1], ord=1)
#study = optuna.create_study(direction='maximize')
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)
... (Omis) ...

[I 2019-12-13 00:34:19,151] Finished trial#97 resulted in value: 34.73946747640069. Current best value is 22.729638264213385 with parameters: {'h1': 73, 'h2': 91, 'learning_rate_init': 0.005367313373989512}.
[I 2019-12-13 00:34:19,472] Finished trial#98 resulted in value: 38.708695477563566. Current best value is 22.729638264213385 with parameters: {'h1': 73, 'h2': 91, 'learning_rate_init': 0.005367313373989512}.
[I 2019-12-13 00:34:19,801] Finished trial#99 resulted in value: 42.20352641425415. Current best value is 22.729638264213385 with parameters: {'h1': 73, 'h2': 91, 'learning_rate_init': 0.005367313373989512}.

{'h1': 73, 'h2': 91, 'learning_rate_init': 0.005367313373989512}

Lorsque j'essaie d'utiliser les meilleurs paramètres dans ** study.best_params, j'obtiens l'erreur suivante: Je ne connais pas de solution facile pour l'instant, donc je ne peux que penser à substituer les paramètres obtenus de manière simple.

classifier = MLPClassifier(**study.best_params), y_train)
classifier.score(X_train, y_train), classifier.score(X_test, y_test)

TypeError                                 Traceback (most recent call last)

<ipython-input-49-ee91971a40bc> in <module>()
----> 1 classifier = MLPClassifier(**study.best_params)
      2, y_train)
      3 classifier.score(X_train, y_train), classifier.score(X_test, y_test)

TypeError: __init__() got an unexpected keyword argument 'h1'

Histoire variée

plt.plot([trial.value for trial in study.trials], label='value')


for key in study.trials[0].params.keys():
    plt.plot([trial.params[key] for trial in study.trials], label=key)




Ne fixez pas la profondeur de la couche

#Fonction objective
def objective(trial):
    h1, = trial.suggest_int('h1', 8, 100),
    h2, = trial.suggest_int('h2', 8, 100),
    h3, = trial.suggest_int('h3', 8, 100),
    h4, = trial.suggest_int('h4', 8, 100),
    h5, = trial.suggest_int('h5', 8, 100),
    hidden_layer_sizes = []
    n = trial.suggest_int('n', 1, 5)
    for h in [h1, h2, h3, h4, h5]:
        if len(hidden_layer_sizes) == n:
    learning_rate_init, = trial.suggest_loguniform('learning_rate_init', 0.001, 0.1),
    classifier = MLPClassifier(max_iter=10000, early_stopping=True,
                                    solver='adam', activation='relu'), y_train)
    #return classifier.score(X_train, y_train)
    #return classifier.score(X_test, y_test)
    return np.linalg.norm(y_train - classifier.predict_proba(X_train)[:, 1], ord=1)
#study = optuna.create_study(direction='maximize')
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)
... (Omis) ...

[I 2019-12-13 00:35:10,424] Finished trial#97 resulted in value: 31.485260318520005. Current best value is 23.024826770529504 with parameters: {'h1': 62, 'h2': 60, 'h3': 58, 'h4': 77, 'h5': 27, 'n': 1, 'learning_rate_init': 0.011342241271350882}.
[I 2019-12-13 00:35:10,801] Finished trial#98 resulted in value: 27.752591077771235. Current best value is 23.024826770529504 with parameters: {'h1': 62, 'h2': 60, 'h3': 58, 'h4': 77, 'h5': 27, 'n': 1, 'learning_rate_init': 0.011342241271350882}.
[I 2019-12-13 00:35:11,199] Finished trial#99 resulted in value: 81.29419572506973. Current best value is 23.024826770529504 with parameters: {'h1': 62, 'h2': 60, 'h3': 58, 'h4': 77, 'h5': 27, 'n': 1, 'learning_rate_init': 0.011342241271350882}.

{'h1': 62,
 'h2': 60,
 'h3': 58,
 'h4': 77,
 'h5': 27,
 'learning_rate_init': 0.011342241271350882,
 'n': 1}
plt.plot([trial.value for trial in study.trials], label='score')


for key in study.trials[0].params.keys():
    plt.plot([trial.params[key] for trial in study.trials], label=key)








PyTorch + Optuna

Similaire à ce qui précède, j'ai essayé l'optimisation du perceptron multicouche avec PyTorch + Optuna.

import torch
from import TensorDataset
from import DataLoader

X_train = torch.from_numpy(X_train).float()
X_test = torch.from_numpy(X_test).float()
y_train = torch.from_numpy(y_train).float()
y_test = torch.from_numpy(y_test).float()

train = TensorDataset(X_train, y_train)

train_loader = DataLoader(train, batch_size=10, shuffle=True)
import torch
class MLPC(torch.nn.Module):
    def __init__(self, n_input, n_hidden1, n_output):
        super(MLPC, self).__init__()
        self.l1 = torch.nn.Linear(n_input, n_hidden1)
        self.l2 = torch.nn.Linear(n_hidden1, n_output)

    def forward(self, x):
        h1 = self.l1(x)
        h2 = torch.sigmoid(h1)
        h3 = self.l2(h2)
        h4 = torch.sigmoid(h3)
        return h4
    def score(self, x, y, threshold=0.5):
        accum = 0
        for y_pred, y1 in zip(self.forward(x), y):
            if y1 == 1:
                if y_pred >= threshold:
                    accum += 1
                if y_pred < threshold:
                    accum += 1
        return accum / len(y)
#Fonction objective
from torch.autograd import Variable
def objective(trial):
    n_h1, = trial.suggest_int('n_hidden1', 1, 100),
    lr, = trial.suggest_loguniform('lr', 0.001, 0.1),
    model = MLPC(len(train[0][0]), n_h1, 1)
    criterion = torch.nn.MSELoss()
    optimizer = torch.optim.SGD(model.parameters(), lr=lr)

    #loss_history = []
    n_epoch = 2000
    for epoch in range(n_epoch):
        total_loss = 0
        for x, y in train_loader:
            x = Variable(x)
            y = Variable(y)
            y_pred = model(x)
            loss = criterion(y_pred, y)
            total_loss += loss.item()
        #if (epoch +1) % (n_epoch / 10) == 0:
        #    print(epoch + 1, total_loss)
    score_train_history.append(model.score(X_train, y_train))
    score_test_history.append(model.score(X_test, y_test))
    return total_loss # model.score(X_test, y_test)L'apprentissage ne progresse-t-il pas?


score_train_history = []
score_test_history = []
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=n_trials)
La première est l'édition d'échec. Quelque chose d'avertissement est sorti. J'ai essayé de continuer sans m'en soucier, mais comme prévenu, la précision ne s'est pas améliorée.

{'lr': 0.0010109929013465883, 'n_hidden1': 82}
plt.plot([trial.value for trial in study.trials], label='loss')


plt.plot(score_train_history, label='score (train)')
plt.plot(score_test_history, label='score (test)')


for key in study.trials[0].params.keys():
    plt.plot([trial.params[key] for trial in study.trials], label=key)




La signification de est que la forme de la matrice des variables objectives n'est pas bonne. Cette fois,

from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
X =
y =

J'ai créé la variable explicative et la variable objective comme dans, mais j'ai besoin de remodeler y en ce moment.

y = y.reshape((len(y), 1))

C'était la seule cause de l'échec. En dehors de cela, le même code exact que précédemment a amélioré la précision. Comparons-le avec le temps de l'échec.

#Méthode d'importation à diviser en données d'entraînement et données de test
from sklearn.model_selection import train_test_split 
#Vers les données d'entraînement / les données de test 6:Divisé au hasard par un rapport de 4
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4) 
import torch
from import TensorDataset
from import DataLoader

X_train = torch.from_numpy(X_train).float()
X_test = torch.from_numpy(X_test).float()
y_train = torch.from_numpy(y_train).float()
y_test = torch.from_numpy(y_test).float()

train = TensorDataset(X_train, y_train)

train_loader = DataLoader(train, batch_size=10, shuffle=True)
import torch
class MLPC(torch.nn.Module):
    def __init__(self, n_input, n_hidden1, n_output):
        super(MLPC, self).__init__()
        self.l1 = torch.nn.Linear(n_input, n_hidden1)
        self.l2 = torch.nn.Linear(n_hidden1, n_output)

    def forward(self, x):
        h1 = self.l1(x)
        h2 = torch.sigmoid(h1)
        h3 = self.l2(h2)
        h4 = torch.sigmoid(h3)
        return h4
    def score(self, x, y, threshold=0.5):
        accum = 0
        for y_pred, y1 in zip(self.forward(x), y):
            if y1 == 1:
                if y_pred >= threshold:
                    accum += 1
                if y_pred < threshold:
                    accum += 1
        return accum / len(y)
#Fonction objective
from torch.autograd import Variable
def objective(trial):
    n_h1, = trial.suggest_int('n_hidden1', 1, 100),
    lr, = trial.suggest_loguniform('lr', 0.001, 0.1),
    model = MLPC(len(train[0][0]), n_h1, 1)
    criterion = torch.nn.MSELoss()
    optimizer = torch.optim.SGD(model.parameters(), lr=lr)

    #loss_history = []
    n_epoch = 2000
    for epoch in range(n_epoch):
        total_loss = 0
        for x, y in train_loader:
            #if x.shape[0] == 1:
            #    continue
            #print(x.shape, y.shape)
            x = Variable(x)
            y = Variable(y)
            y_pred = model(x)
            loss = criterion(y_pred, y)
            total_loss += loss.item()
        #if (epoch +1) % (n_epoch / 10) == 0:
        #    print(epoch + 1, total_loss)
    score_train_history.append(model.score(X_train, y_train))
    score_test_history.append(model.score(X_test, y_test))
    return total_loss # model.score(X_test, y_test)Si vous le définissez sur, l'apprentissage ne se poursuivra pas?
score_train_history = []
score_test_history = []
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=n_trials)
{'lr': 0.0010151912634053866, 'n_hidden1': 38}
%matplotlib inline
import matplotlib.pyplot as plt
plt.plot([trial.value for trial in study.trials], label='loss')


plt.plot(score_train_history, label='score (train)')
plt.plot(score_test_history, label='score (test)')


for key in study.trials[0].params.keys():
    plt.plot([trial.params[key] for trial in study.trials], label=key)



