En mémoire, je résumerai le plan, les classes, les exemples, les mots-clés à utiliser et les sites qui ont été utiles pour apprendre sur «l'apprentissage avec l'enseignant» et «l'apprentissage sans l'enseignant».
Mecha Zackli: Créez un modèle de prédiction en donnant une formation qui représente les caractéristiques et les données de réponse correspondantes. Il existe des problèmes de classification et de régression dans la prédiction.
Trouvez le paramètre avec la plus petite valeur de fonction de perte (fonction d'erreur) parmi toutes les lignes droites.
--Classe à utiliser: sklearn.linear_model.LinearRegression
--Exemple: Relation entre le nombre de visiteurs et les ventes, etc.
--Mots clés: régression simple, régression multiple, régression polypoly, régression non linéaire
--Site de référence: [Régression linéaire avec scikit-learn (analyse de régression unique / analyse de régression multiple)](https://pythondatascience.plavox.info/scikit-learn/%E7%B7%9A%E5%BD%A2%E5 % 9B% 9E% E5% B8% B0)
Il s'agit d'un algorithme de classification binaire appliqué aux problèmes de classification.
--Classe à utiliser: sklearn.linear_model.LogisticRegression
--Exemple: Relation entre visites commerciales / satisfaction et ventes, etc.
--Mots clés: fonction sigmoïde, fonction d'erreur d'entropie croisée
--Site de référence: Classification de l'iris par régression logistique de scicit-learn
Un algorithme qui apprend la limite de décision (ligne droite) à partir des données et peut être utilisé à la fois pour la classification et la régression.
--Classe à utiliser: sklearn.svm.SVC
--Cas: classification de texte, reconnaissance numérique, etc.
--Mots clés: marge dure, marge souple
--Site de référence: Qu'est-ce que Support Vector Machine (SVM)? ~ De l'implémentation basique à Python ~
L'ensemble de données est séparé après avoir mappé les données de l'espace réel à un espace qui peut être séparé par un superplan par une fonction de noyau.
--Classe à utiliser: sklearn.svm.SVC
En supposant que chaque quantité d'entités est indépendante, la probabilité que les données soient une étiquette est calculée.
--Classe à utiliser: sklearn.naive_bayes.MultinomialNB (Other GaussianNB, GaussianNB, etc.)
Recueillir les résultats de plusieurs arbres de décision avec diversité et produire des résultats de classification par décision majoritaire.
--Classe à utiliser: sklearn.ensemble.RandomForestClassifier
--Cas: Classification par historique des actions et attributs
--Mots-clés: coefficient de Gini, méthode bootstrap
--Site de référence: [Introduction] Analyse d'arbre de décision pour les débutants par les débutants
Apprenez les limites de décision complexes en prenant en sandwich une couche intermédiaire entre les entrées et les sorties.
--Classe à utiliser: sklearn.neural_network.MLPClassifier
--Cas: reconnaissance d'image, reconnaissance vocale
--Mots clés: Perceptron simple, fonction d'activation, arrêt précoce
--Site de référence: Créons un réseau neuronal par vous-même
Le jugement est rendu par décision majoritaire de k classifications à proximité des données d'entrée.
--Classe à utiliser: sklearn.neighbors.KNeighborsClassifier
--Site de référence: Machine learning ~ Méthode K-voisinage ~
sklearn.metrics.confusion_matrix
--a-2. Taux de réponse correcte sklearn.metrics.accuracy_score
--a-3. Taux de conformité sklearn.metrics.precision_score
--a-4. Taux de rappel sklearn.metrics.recall_score
--a-5. Valeur F sklearn.metrics.f1_score
sklearn.metrics.roc_curve
Site de référence: Générer une matrice de confusion avec scikit-learn, calculer le taux de précision, le taux de rappel, la valeur F1, etc. Calculer la courbe ROC et son AUC avec scicit-learn
sklearn.metrics.mean_squared_error
--b-2. Erreur absolue moyenne sklearn.metrics.mean_absolute_error
--b-3. Coefficient de décision sklearn.metrics.r2_score
Site de référence: [Évaluer le résultat du modèle de régression avec scikit-learn](https://pythondatascience.plavox.info/scikit-learn/%E5%9B%9E%E5%B8%B0%E3%83%A2%] E3% 83% 87% E3% 83% AB% E3% 81% AE% E8% A9% 95% E4% BE% A1)
sklearn.grid_search.GridSearchCV
--a-2. Recherche aléatoire sklearn.grid_search.RandomizedSearchCV
Site de référence: Affinons les hyper paramètres du modèle avec scicit-learn!
sklearn.model_selection.train_test_split
--b-2. Méthode de validation croisée sklearn.model_selection.cross_val_score`` sklearn.model_selection.KFold
--b-3. Laisser la méthode one-out sklearn.model_selection.LeaveOneOut
Site de référence: [About the method of division of learning data and test data in machine learning and deep learning](https://newtechnologylifestyle.net/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7 % BF% 92% E3% 80% 81% E3% 83% 87% E3% 82% A3% E3% 83% BC% E3% 83% 97% E3% 83% A9% E3% 83% BC% E3% 83 % 8B% E3% 83% B3% E3% 82% B0% E3% 81% A7% E3% 81% AE% E5% AD% A6% E7% BF% 92% E3% 83% 87% E3% 83% BC % E3% 82% BF% E3% 81% A8 /)
sklearn.linear_model.Ridge
--c-2. Retour à Rosso sklearn.linear_model.Lasso
Site de référence: Explication de la régression des crêtes et de la régression Lasso dans les plus brefs délais (apprentissage du machine learning # 3)
Mecha Zackri: Contrairement à l'apprentissage supervisé, il n'y a pas de variable objective. Ici, la structure des données d'entité est extraite en la transformant en une autre forme ou en trouvant un sous-ensemble. Les techniques comprennent la réduction de dimension et le regroupement.
Résumez un grand nombre de variables explicatives quantitatives en moins d'indicateurs et de variables synthétiques pour réduire les variables des données.
--Classe à utiliser: sklearn.decomposition.PCA
--Mots clés: matrice distribuée co-distribuée, problème de valeur propre, taux de cotisation cumulé
--Site de référence: Analyse des composants principaux et problème de valeur propre
Classez les données en un nombre donné de clusters et divisez les similaires en groupes.
--Classe à utiliser: sklearn.cluster.KMeans
--Cas: analyse de données marketing, classification d'images
--Mots clés: somme des carrés dans le cluster, méthode du coude, analyse de la silhouette, k-means ++, méthode k-medoids
--Site de référence: Comment trouver le nombre optimal de clusters pour k-means
Dans les données de phrase, la similitude entre les mots et les phrases est obtenue en réduisant la quantité de caractéristiques du nombre de mots au nombre de sujets latents.
--Classe à utiliser: sklearn.decomposition.TruncatedSVD
--Mots clés: décomposition de singularité, modèle de sujet, tf-idf
--Site de référence: Théorie de l'analyse du sens latent par apprentissage automatique
Une méthode de réduction de dimension qui a la propriété que toutes les valeurs de données d'entrée et de sortie sont non négatives.
--Classe à utiliser: sklearn.decomposition.NMF
--Cas: Recommandation, text mining
--Site de référence: Comprendre la décomposition du facteur de matrice non négative (NMF) en douceur
Créez un sujet à partir des mots du document et demandez de quel sujet se compose le document.
--Classe à utiliser: sklearn.decomposition.LatentDirichletAllocation
--Cas: traitement du langage naturel
--Mots clés: modèle de sujet, distribution de Diricle
--Site de référence: Explication des points difficiles à comprendre pour les débutants dans le modèle de sujet (LDA)
Le regroupement est effectué par connexion linéaire de plusieurs distributions gaussiennes.
--Classe à utiliser: sklearn.mixture.GaussianMixture
--Mot clé: distribution gaussienne
La réduction de dimension est effectuée pour les données non linéaires.
--Classe à utiliser: sklearn.manifold.LocallyLinearEmbedding
Il s'agit d'une méthode de réduction des données de grande dimension à deux ou trois dimensions, et est utilisée pour la visualisation des données.
--Classe à utiliser: sklearn.manifold.TSNE
Recommended Posts