K - Means Clustering Menggunakan Python (Google Colab)
Apa itu Algoritma K-Means Clustering?
K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.Terdapat dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan K-Means merupakan salah satu metode data clustering non-hierarchical atau Partitional Clustering.
Bagaimana cara kerja K-Means Clustering?
Untuk memproses data algoritma K-means Clustering , data dimulai dengan kelompok pertama centroid yang dipilih secara acak, yang digunakan sebagai titik awal untuk setiap cluster, dan kemudian melakukan perhitungan berulang (berulang) untuk mengoptimalkan posisi centroid.Proses ini berhenti atau telah selesai dalam mengoptimalkan cluster ketika:
1. Centroid telah stabil, yang artinya tidak ada perubahan dalam nilai-nilai mereka karena pengelompokan telah berhasil.
2. Jumlah iterasi yang ditentukan telah tercapai.
Selanjutnya kita harus mengimport package yang kita butuhkan.
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
Jika telah berhasil, sekarang saatnya input data nilai yang telah kita miliki,
d = pd.read_csv('nilai.csv')
d.head()
Dan akan didapatkan output seperti ini,
selanjutnya kita akan menghilangkan tabel Nama Mahasiswanya, caranya seperti ini
d = d.drop (['NAMA MAHASISWA'], axis=1)
d.head()
d_x = d.iloc [:,1:4]
Kemudian kita harus mengubah variabel yang sebelumnya berbentuk data frame menjadi array.
x_array = np.array (d_x)
print (x_array)
Karena ukuran data sangat jauh perbedaan rentangnya antara Longitute dan
Latitude yang akan menyebabkan plot tidak muncul dengan sempurna maka
kita harus melakukan standarisasi.
scaler = MinMaxScaler()
x_scaled = scaler.fit_transform(x_array)
x_scaled
Dapat dilihat bahwa hasil dari scalling data membuat data yang kita
miliki berada di antara 0–1. Sehingga tentunya akan lebih mudah untuk
diklusterkan.
Setelah itu, kita akan menentukan jumlah klasternya, misalnya disini
kita memilih 3 klaster. Jumlah klaster ini bebas tergantung peneliti.
kmeans = KMeans (n_clusters=3, random_state=123)
kmeans.fit (x_scaled)
Kita dapat mencari nilai pusat dari masing masing klaster,
print(kmeans.cluster_centers_)
Kemudian tampilkan hasil kluster mu dan tambahkan kolom klusteran mu kedalam data frame.
print (kmeans.labels_)
d ["kluster"] = kmeans. labels_
d.head()
1. Centroid telah stabil, yang artinya tidak ada perubahan dalam nilai-nilai mereka karena pengelompokan telah berhasil.
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
x_array = np.array (d_x)
print (x_array)
Karena ukuran data sangat jauh perbedaan rentangnya antara Longitute dan
Latitude yang akan menyebabkan plot tidak muncul dengan sempurna maka
kita harus melakukan standarisasi.
scaler = MinMaxScaler()
x_scaled = scaler.fit_transform(x_array)
x_scaled
Dapat dilihat bahwa hasil dari scalling data membuat data yang kita
miliki berada di antara 0–1. Sehingga tentunya akan lebih mudah untuk
diklusterkan.
Setelah itu, kita akan menentukan jumlah klasternya, misalnya disini
kita memilih 3 klaster. Jumlah klaster ini bebas tergantung peneliti.
kmeans = KMeans (n_clusters=3, random_state=123)
kmeans.fit (x_scaled)
Kita dapat mencari nilai pusat dari masing masing klaster,
print(kmeans.cluster_centers_)
Kemudian tampilkan hasil kluster mu dan tambahkan kolom klusteran mu kedalam data frame.
print (kmeans.labels_)
d ["kluster"] = kmeans. labels_
d.head()
Komentar
Posting Komentar