2 of 24

Recap: Latihan

Sebutkan 5 peran utama data mining!
Jelaskan perbedaan estimasi dan prediksi!
Jelaskan perbedaan prediksi dan klasifikasi!
Jelaskan perbedaan klasifikasi dan klastering!
Jelaskan perbedaan klastering dan association!
Jelaskan perbedaan estimasi dan klasifikasi!
Jelaskan perbedaan estimasi dan klastering!
Jelaskan perbedaan supervised dan unsupervised learning!

3 of 24

Proses Data Mining

1. Himpunan Data�

(Pemahaman dan Pengolahan Data)

2. Metode Data Mining��(Pilih Metode�Sesuai Karakter Data)

3. Pengetahuan�

(Pola/Model/Rumus/�Tree/Rule/Cluster)

4. Evaluation �

�(Akurasi, AUC, RMSE, Lift Ratio,…)

DATA PRE-PROCESSING

Data Cleaning

Data Integration

Data Reduction

Data Transformation

Estimation

Prediction

Classification

Clustering

Association

4 of 24

1. Himpunan Data (Dataset)

Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
Jenis dataset ada dua: Private dan Public
Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian

Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining

UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
ACM KDD Cup (http://www.sigkdd.org/kddcup/)
PredictionIO (http://docs.prediction.io/datacollection/sample/)

Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable

5 of 24

Dataset (Himpunan Data)

Class/Label/Target

Attribute/Feature

Nominal

Numerik

Record/

Object/

Sample/

Tuple

6 of 24

Data Preparation

Kenapa Persiapan Data??

7 of 24

Why Data Preprocessing?

Data in the real world is dirty

incomplete: missing attribute values, lack of certain attributes of interest, or containing only aggregate data

e.g., occupation=“”

noisy: containing errors or outliers

e.g., Salary=“-10”

inconsistent: containing discrepancies in codes or names

e.g., Age=“42” Birthday=“03/07/1997”
e.g., Was rating “1,2,3”, now rating “A, B, C”
e.g., discrepancy between duplicate records

8 of 24

Why Is Data Preprocessing Important?

No quality data, no quality mining results!

Quality decisions must be based on quality data

e.g., duplicate or missing data may cause incorrect or even misleading statistics.

Data preparation, cleaning, and transformation comprises the majority of the work in a data mining application (90%).

9 of 24

Kegiatan data prepocessing

Data cleaning (pembersihan data)
Data integration
Data Trasformation
Data Reduction
Data disretization

10 of 24

Forms of data preprocessing

11 of 24

Data Cleaning

Data cleaning tasks

Mengisi missing values
Mengidentifikasi atau membuang outliers
Membetulkan data yang tidak konsisten

12 of 24

How to Handle Missing Data?

Ignore the tuple: usually done when class label is missing (assuming the tasks in classification)—not effective when the percentage of missing values per attribute varies considerably.
Fill in the missing value manually: tedious + infeasible?
Use a global constant to fill in the missing value: e.g., “unknown”, a new class?!
Use the attribute mean to fill in the missing value
Use the attribute mean for all samples belonging to the same class to fill in the missing value: smarter
Use the most probable value to fill in the missing value: inference-based such as Bayesian formula or decision tree

14 of 24

How to Handle Missing Data?

Age	Income	Team	Gender
23	24,200	Red Sox	M
39	?	Yankees	F
45	45,390	?	F

Fill missing values using aggregate functions (e.g., average) or probabilistic estimates on global value distribution

E.g., put the average income here, or put the most probable income based on the fact that the person is 39 years old

E.g., put the most frequent team here

15 of 24

Data cleaning : Noisy Data

Noise data adalah suatu kesalahan acak atau variasi dalam variable terukur
Teknik-teknik

Binning

Smoothing by bin means
Smoothing by bin medians
Smoothing by bin bundaries

Regression
Outlier Analysis

16 of 24

Metode Binning

Melakukan pengelompokan terhadap kumpulan data
Urutan proses binning

Urutkan data secara ascending
Lakukan partisi kedalam bins

Dapat menggunakan equal-width (jarak) atau equal-depth(frekuensi)

Kemudian dapat di-smoothing

17 of 24

Partisi dalam metode binning

Partisi equal-width (jarak)

Algoritma membagi data kedalam k interval ukuran yang sama. Lebar interval adalah

W=(max-min)/k

Batas interval adalah

Min+w, min+2w,.., min+(k-1)w

Partisi Equal-depth

Membagi data kedalam k kelompok dimana tiap kelompok berisi jumlah data yang sama

18 of 24

Contoh

Data : 0, 4, 12, 16, 16, 18, 24, 26, 28
Equal width

Bin 1 = 0,1 [-,10]
Bin 2 = 12,16,16,18 [10,20]
Bin 3 = 24, 26, 28 [20,+]

Equal depth

Bin 1 = 0, 4, 12
Bin 2 = 16, 16, 18
Bin 3 = 24, 26, 28

19 of 24

Smoothing pada partisi binning

Smoothing berdasarkan rata-rata

Semua nilai ditiap bin diganti dengan rata-rata nilai tiap bin
Bin 1: 9, 9, 9
Bin 2: 22, 22, 22
Bin 3: 29, 29, 29

Smoothing berdasarkan batasan

Setiap nilai bin diganti dengan ilia yang paling dekat dari batas nilai
Batasan nilai terbentuk dari [min, max] tiap bin
Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34

20 of 24

Data cleaning : outliers

21 of 24

Integrasi data

Data dapat bersumber dari beberapa sumber
Teknik
Analisis korelasi
Atribut redudan
duplikasi

22 of 24

Data Trasformation

Tujuannya diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami
Strategi :
Smoothing
Attribute (feature) construction
Aggregation
Normalization
Discretization

23 of 24

Data Trasformation : Normalization

Unit ukuran dapat mempengaruhi analisis data.
Unit yang lebih kecil akan menghasilkan rentang nilai yang besar

Atribut akan memiliki “bobot” yang lebih besar dari atribut lain

Sehingga

Data perlu dinormalisasi atau dibakukan.

Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering

1 of 24