Bonjour, c'est Motty. Cette fois, la classification (clustering) a été effectuée en Python.
La classification dans les statistiques et l'apprentissage automatique fait référence à la classification des données en groupes de fonctionnalités similaires. Puisqu'il est exécuté sans norme à l'avance, il s'agit d'un "apprentissage sans enseignant".
La méthode de moyennage K est un algorithme qui classe en un nombre donné de clusters (k) en utilisant la moyenne des clusters. La structure de classification est optimisée en classant chaque donnée en fonction de sa proximité avec le centre de gravité et en mettant à jour le centre de gravité de manière séquentielle.
KMeans.py
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs as mb
clf = KMeans(n_clusters = 3)
N = 100 #Number of sample
dataset = mb(centers = 3)
features = np.array(dataset[0])
pred = clf.fit_predict(features)
J'ai pu le classer proprement.
De plus, si les données elles-mêmes sont propres, que le nombre de K est approprié et que la sélection de l'algorithme n'est pas satisfaite, il peut y avoir des cas où elle ne peut pas être divisée proprement de cette manière.
NOISE = [25,25]
features = np.append(features,NOISE).reshape(-1,2)
dataset = mb(centers = 4)
makemoons.py
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs as mb
clf = KMeans(n_clusters = 2)
X1,y1 = make_moons(noise = 0.05, random_state=0)
pred1 = clf.fit_predict(X1)
for i in range(2):
labels = X1[pred1 == i]
plt.scatter(labels[:,0],labels[:,1])
plt.show()
Il existe différents algorithmes de classification, et cette fois j'ai décrit l'un d'entre eux, la méthode KMeans. Je voudrais décrire plus tard la classification de SVM et Ranram Forest.
Recommended Posts