Analisis Cluster
Sama dengan analisis factor, analisis cluster (cluster analysis) termasuk pada Interdependes Techniques. Namun ada perbedaan mendasar di antara kedua alat analisis multivariate ini. Jika analisis factor (R factor analysis) bertujuan mereduksi variabel, analisis cluster (Q factor analysis) lebih bertujuan mengelompokkan isi variabel, walaupun bisa juga disertai dengan pengelompokan variabel. Dalam terminology SPSS, analisis factor adalah perlakuan terhadap kolom, sedangkan analisis cluster adalah perlakuan terhadap baris.
Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Objek bisa berupa produk (barang dan jasa), benda (tumbuhan atau lainnya), serta orang (responden, konsumen atau yang lain). Objek tersebut akan diklasifikasikan ke dalam satu atau lebih cluster (kelompok) sehingga objek-objek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lain.
Definisi Analisis Cluster
Jadi definisi analisis cluster:
Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan mengelompok kedalam satu cluster (kelompok) yang sama.
Secara logika, cluster yang baik adalah cluster yang mempunyai:
- Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).
- Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang lainnya (between-cluster).
Beberapa manfaat dari analisis cluster adalah: eksplorasi data peubah ganda, reduksi data, stratifikasi sampling, prediksi keadaan obyek. Hasil dari analisis cluster dipengaruhi oleh: obyek yang diclusterkan, peubah yang diamati, ukuran kemiripan (jarak) yang dipakai, skala ukuran yang dipakai, serta metode pengclusteran yang digunakan.
Proses Analisis Cluster
Untuk menganalisis cluster, anda perlu melakukan proses sebagai berikut:
Tahap 1:
Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang mengelompokkan objek yang mempunyai kemiripan, proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Metode yang digunakan:
- Mengukur korelasi antar sepasang objek pada beberapa variabel
- Mengukur jarak (distance) antara dua objek. Pengukuran ada bermacam-macam, yang paling popular adalah metode Euclidian distance.
Tahap 2:
Membuat cluster. Metode dalam membuat cluster ada banyak sekali, seperti yang digambarkan dalam diagram di bawah ini:
Hirarchial Methode
Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hirarki tersebut.
Kluster Hirarki
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative (pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita beranjak dari sebuah cluster besar yang terdiri dari semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita pisahkan demikian seterusnya.
Agglomerative
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu: Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.
· Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.
· Complete Linkage, berlawanan dengan Single Linkage prosedur ini pengelompokkannya berdasarkan jarak terjauh.
· Average Linkage, prosedure ini hampir sama dengan Single Linkage maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster yang lain.
· Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel.
· Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan jarak centroid dua cluster yang bersangkutan.
Manfaat Analisis Kluster Hirarki
Keuntungan penggunaan metode hierarki dalam analisis Cluster adalah mempercepat pengolahan dan menghemat waktu karena data yang diinputkan akan membentuk hierarki atau membentuk tingkatan tersendiri sehingga mempermudah dalam penafsiran, namun kelemahan dari metode ini adalah seringnya terdapat kesalahan pada data outlier, perbedaan ukuran jarak yang digunakan, dan terdapatnya variabel yang tidak relevan. Sedang metode non-hierarki memiliki keuntungan dapat melakukan analisis sampel dalam ukuran yang lebih besar dengan lebih efisien. Selain itu, hanya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan variabel tak relevan atau variabel yang tidak tepat. Sedangkan kelemahannya adalah untuk titik bakal random lebih buruk dari pada metode hirarkhi.
Non-Hirarchial Methode
Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode ini biasa disebut dengan K-Means Cluster.
Kluster Non Hirarki
Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster asalnya.
Pendekatan Metode non hirarki cluster
Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.
Sequential Threshold, Metode Sequential Threshold
· Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.
Parallel Threshold, Metode Parallel Threshold
· Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.
Optimization
· Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang lebih dekat.
Interprestasi Analisis Cluster
Setelah cluster terbentuk, entah dengan metode hirarki atau non-hirarki, langkah selanjutnya adalah melakukan interprestasi terhadap cluster yang terbentuk, yang pada intinya memberi nama spesifik untuk menggambarkan isi cluster. Misalnya, kelompok konsumen yang memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai “cluster lingkungan”.
Tahap validasi Cluster
Melakukan validasi dan profiling cluster. Cluster yang terbentuk kemudian diuji apakah hasil tersebut valid. Kemudian dilakukan proses profiling untuk menjelaskan karakteristik setiap cluster berdasarkan profil tertentu (seperti usia konsumen pembeli rumah, tingkat penghasilannya dan sebagainya). Analisis cluster agak bersifat subjektif dalam penentuan penyelesaian cluster yang optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan peneliti.
· Validasi Hasil Cluster
Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil cluster adalah representatif terhadap populasi secara umum, dan dengan demikian dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah kemudian membandingkan antara hasil cluster dengan perkiraan masing-masing cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya dibandingkan.
· Profiling Hasil Cluster
Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi. Tipe ini meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster ditentukan. Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur cluster untuk menggambarkan karakteristik masing-masing cluster. Meskipun secara teori tidak masuk akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini diperlukan untuk memprediksi validasi taksiran, sehingga minimal penting secara praktek.
Asumsi Analisis Cluster
Untuk melakukan proses analisis cluster ini, ada asumsi yang harus terpenuhi, yaitu:
Sampel yang diambil benar-benar dapat mewakili populasi yang ada (representativeness of the sample) dan Multikolinieritas. Sedangkan asumsi lainnya yang biasanya dilakukan pada analisis multivariat tidak perlu dilakukan, seperti: Uji Normalitas, Uji Linearitas dan Uji Heteroskedastisitas.
Dalam artikel berikutnya, kami akan membahas bagaimana cara melakukan analisis cluster dengan menggunakan aplikasi SPSS, yaitu pada dua artikel kami yang berjudul:
Analisis Cluster Hirarki dengan SPSS.
By Anwar Hidayat