Cluster Kepadatan Penduduk Indonesia Menggunakan Algoritma k-means Clustering

Muhammad Jazman, S.Kom.,MInfoSys

2015

Executive Summary

Laporan ini dibuat sebagai contoh yang dapat digunakan oleh Mahasiswa Sistem Informasi UIN Suska dalam hal mengerjakan Final Project matakuliah Data Mining.

Contents

Executive Summary

Contents

Organizational Understanding

Data Understanding

Data Preparation

Modeling

Evaluasi

Deployment

Kesimpulan dan Saran

Daftar Pustaka

Organizational Understanding

Bangsa Indonesia patut bangga memiliki penduduk yang sangat besar, namun, sayangnya pemerataan penduduk masih merupakan kendala serius yang mesti dihadapi pemerintah. Padatnya suatu penduduk di suatu provinsi dapat menunjang perekonomian, namun jika terjadi kesenjangan dapat memicu konflik di masyarakat.

Pemerintah telah melakukan sensus nasional dan melalui website BPS, telah memberikan data kepadatan penduduk. Namunnya, data tersebut hanya berupa angka-angka di tabel sehingga sangat susah untuk dipahami makna tersembunyi di belakangnya.

UIN suska, sebagai universitas yang lebih baik dari UI, karena ada N nya, ada Negerinya, ini guyonan saya, tertantang untuk melakukan clustering terhadap data tersebut. Dengan clustering ini nantinya diharapkan kita dapat mengelompokkan provinsi itu berdasarkan hasil analisis keterdekatan kepadatan penduduknya dari tahun-ke-tahun.

Data Understanding

Sumber data didapat dari website Badan Pusat Statistik (BPS.go.id), Distribusi Persentase Penduduk dan Kepadatan Penduduk Menurut Provinsi, 2000-2013, dimana terdapat data kepadatan penduduk di Indonesia untuk 33 provinsi. Data provinsi Kalimantan Utara belum terdapat pada tabel tersebut, dan masih dianggap terlebur ke dalam data provinsi Kalimantan Timur.

Data sebelum tahun 2005 masih melebur beberapa provinsi yang baru, seperti provinsi Kepulauan Riau, Sulawesi Barat dan Papua Barat. Untuk itu, analisis hanya dilakukan untuk data dari tahun 2005 hingga tahun 2013.

Data Preparation

Data kepadatan penduduk yang dapat diunduh secara bebas dari BPS.go.id diubah menjadi CSV (Comma Separated Value). Data dari BPS tidak perlu di ubah lagi karena telah mencakup 33 (tiga puluh tiga) provinsi di Indonesia.

Data CSV tersebut diimport ke piranti lunak RapidMiner, dan dapat dilihat pada tampilan berikut:

Atribut provinsi diberi label id agar tidak dilakukan pemrosesan oleh RapidMiner. Data dari BPS sudah sangat bersih dan tidak terdapat lagi error, sehingga siap untuk ditambang.

Modeling

The ‘k’ in k-means clustering stands for some number of groups, or clusters. The aim of this data mining methodology is to look at each observation’s individual attribute values and compare them to the means, or in other words averages, of potential groups of other observations in order to find natural groups that are similar to one another. The k-means algorithm

accomplishes this by sampling some set of observations in the data set, calculating the averages, or means, for each attribute for the observations in that sample, and then comparing the other attributes in the data set to that sample’s means. The system does this repetitively in order to ‘circle- in’ on the best matches and then to formulate groups of observations which become the clusters. As the means calculated become more and more similar, clusters are formed, and each observation whose attributes values are most like the means of a cluster become members of that cluster.

Pada kesempatan kali ini, penulis melakukan k-means clustering dengan jumlah cluster (k) sebanyak 4 dan proses dilakukan sebanyak 10 kali.

Evaluasi

Dari hasil RapidMiner, terlihat bahwa dari 33 provinsi di Indonesia, jika dicluster menjadi 4 provinsi, terdapat 20 provinsi pada cluster pertama, 6 provinsi pada cluster kedua dan ke-empat, sedangkan hanya satu provinsi di cluster ke-3, yaitu DKI Jakarta.Hasil dari clustering sebahagian ditampilkan ke layar untuk dianalisis kembali, dan sebahagian disimpan ke CSV untuk lebih mudah dibuat petanya dengan Google Fussion Table.

Provinsi Riau, bersamaan dengan 19 provinsi lain terdapat pada cluster pertama (cluster_0) yang berisi provinsi dengan kepadatan penduduk yang sangat rendah.

Cluster terakhir (cluster_3) berisi 6 provinsi yang penduduknya lebih padat dari pada cluster pertama, namun tidak sepadat cluster kedua, yang berisi 6 provinsi padat berikutnya.

Cluster tiga hanya satu provinsi, yaitu Daerah Khusus Ibukota Jakarta yang sangat padat.

Jika di-plot, hasil clustering tersebut adalah sebagai berikut:

Adapun centroid tabel untuk masing-masing cluster dapat dilihat pada tabel berikut:

Agar lebih mudah dipahami secara spasial, maka data yang dihasilkan dari proses Write CSV dari RapidMiner tadi diimport ke Google Fussion Table untuk selanjutnya dibuatkan peta tematik (choropleth).

Dari peta tematik ini terlihat bahwa ada hal aneh dengan cluster terakhir (cluster_3). Mayoritas cluster ini diisi oleh daerah yang dekat dengan pulau jawa dan bali (cluster_1) dan DKI (cluster_2). Namun Sumatera Utara dan Sulawesi Utara dan Kepulauan Riau terlihat masuk ke cluster terakhir, walaupun jauh dari Ibu Kota (DKI Jakarta).

Perkiraan sementara adalah Sulawesi Utara mungkin diisi oleh penduduk yang menghindari wilayah konflik Maluku dan Maluku Utara, sedangkan Sumatera Utara dan Kepulauan Riau merupakan wilayah yang dekat dengan Singapura dan Malaysia.

Deployment

Untuk lebih memeratakan kepadatan penduduk, diperlukan akses jalan baik darat maupun laut yang lebih baik. Terlihat walaupun Makassar cukup jauh dari DKI Jakarta, namun Sulawesi Selatan termasuk ke cluster_3. Hal ini diperkirakan dikarenakan akses laut yang bagus.

Kesimpulan dan Saran

Tulis di sini kesimpulan dan saran Anda.

Daftar Pustaka

Perhatikan bahwa point tertinggi ada pada pemilihan daftar pustaka!

Ingat, ini bukanlah skripsi, jadi Anda tidak harus betul-betul mencari buku yang bagus. Cukup ambil dari ProQuest atau Google Scholar beberapa buku yang judulnya senada, tetapi harus Anda kutip/ paraphrase.