Linear Models Soit y hat la valeur prédite, le vecteur w (= w1, w2 ..., wp) le coefficient (coef) et w0 la section (intercept).
\hat{y}(w, x) = w_0 + w_1 x_1 + ... + w_p x_p
Ordinary Least Squares Trouvez le coefficient suivant qui minimise la somme des carrés des résidus. La norme L2 signifie une distance euclidienne ordinaire.
\min_{w} || X w - y||_2^2
sklearn
class sklearn.linear_model.LinearRegression(*, fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)
Implementation
Ridge Regression En tant que fonction de perte, le terme de régularisation du carré de la norme L2 est ajouté. La valeur absolue du coefficient est supprimée, ce qui empêche le surapprentissage.
\min_{w} || X w - y||_2^2 + \alpha ||w||_2^2
sklearn
class sklearn.linear_model.Ridge(alpha=1.0, *, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver='auto', random_state=None)
Lasso Regression En tant que fonction de perte, le terme de régularisation de la norme L1 (distance de Manhattan) est ajouté. Il peut être possible de réduire la dimension de la quantité d'entité en définissant une partie du coefficient sur 0.
\min_{w} { \frac{1}{2n_{\text{samples}}} ||X w - y||_2 ^ 2 + \alpha ||w||_1}
Multi-task Lasso
Elastic-Net Ajoutez un terme de régularisation pour la somme des normes L1 et L2. Il en résulte une régression Ridge lorsque ρ = 0 et une régression Lasso lorsque ρ = 1.
\min_{w} { \frac{1}{2n_{\text{samples}}} ||X w - y||_2 ^ 2 + \alpha \rho ||w||_1 +
\frac{\alpha(1-\rho)}{2} ||w||_2 ^ 2}
Multi-task Elastic-Net
Least Angle Regression (LARS)
Orthogonal Matching Pursuit (OMP) Il y a une condition d'arrêt.
\underset{w}{\operatorname{arg\,min\,}} ||y - Xw||_2^2 \text{ subject to } ||w||_0 \leq n_{\text{nonzero\_coefs}}
Bayesian Regression
p(y|X,w,\alpha) = \mathcal{N}(y|X w,\alpha)
Logistic Regression Classification en disant Régression. Un modèle de régression statistique de variables qui suivent la distribution de Bernoulli. Utilisez Logit comme fonction de concaténation.
Prédisez les loisirs des utilisateurs tels que les films, la musique, les résultats de recherche et les achats. Il existe un filtrage collaboratif qui effectue des prédictions basées sur des préférences utilisateur similaires, et un filtrage basé sur le contenu qui fait des prédictions basées sur ce que les utilisateurs ont aimé dans le passé.
Un algorithme d'apprentissage pour la valeur d'action d'état Q (s, a), où s est l'état, a est l'action et r est la récompense. Dans l'équation suivante, α signifie le taux d'apprentissage et γ le taux d'actualisation. Q (st, at) est mis à jour l'un après l'autre selon α comme suit. La valeur Q maximale de l'état de destination de mise à jour st + 1 est adoptée en fonction de γ.
Q(s_t, a_t) \leftarrow (1-\alpha)Q(s_t, a_t) + \alpha(r_{t+1} + \gamma \max_{a_{t+1}}Q(s_{t+1}, a_{t+1}))\\
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha(r_{t+1} + \gamma \max_{a_{t+1}}Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t))
Sarsa
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha(r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t))
Returns(s, a) \leftarrow append(Returns(s, a), r)\\
Q(s, a) \leftarrow average(Returns(s, a))
Recommended Posts