1 of 24

Proses Data Mining

2 of 24

Recap: Latihan

  1. Sebutkan 5 peran utama data mining!
  2. Jelaskan perbedaan estimasi dan prediksi!
  3. Jelaskan perbedaan prediksi dan klasifikasi!
  4. Jelaskan perbedaan klasifikasi dan klastering!
  5. Jelaskan perbedaan klastering dan association!
  6. Jelaskan perbedaan estimasi dan klasifikasi!
  7. Jelaskan perbedaan estimasi dan klastering!
  8. Jelaskan perbedaan supervised dan unsupervised learning!

2

3 of 24

Proses Data Mining

3

1. Himpunan Data

(Pemahaman dan Pengolahan Data)

2. Metode Data Mining��(Pilih Metode�Sesuai Karakter Data)

3. Pengetahuan

(Pola/Model/Rumus/�Tree/Rule/Cluster)

4. Evaluation

(Akurasi, AUC, RMSE, Lift Ratio,…)

DATA PRE-PROCESSING

Data Cleaning

Data Integration

Data Reduction

Data Transformation

Estimation

Prediction

Classification

Clustering

Association

4 of 24

1. Himpunan Data (Dataset)

  • Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
  • Jenis dataset ada dua: Private dan Public
  • Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
    • Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
  • Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining
    • UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
    • ACM KDD Cup (http://www.sigkdd.org/kddcup/)
    • PredictionIO (http://docs.prediction.io/datacollection/sample/)
  • Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable

4

5 of 24

Dataset (Himpunan Data)

5

Class/Label/Target

Attribute/Feature

Nominal

Numerik

Record/

Object/

Sample/

Tuple

6 of 24

Data Preparation

Kenapa Persiapan Data??

7 of 24

Why Data Preprocessing?

  • Data in the real world is dirty
    • incomplete: missing attribute values, lack of certain attributes of interest, or containing only aggregate data
      • e.g., occupation=“”
    • noisy: containing errors or outliers
      • e.g., Salary=“-10”
    • inconsistent: containing discrepancies in codes or names
      • e.g., Age=“42” Birthday=“03/07/1997”
      • e.g., Was rating “1,2,3”, now rating “A, B, C”
      • e.g., discrepancy between duplicate records

8 of 24

Why Is Data Preprocessing Important?

  • No quality data, no quality mining results!
    • Quality decisions must be based on quality data
      • e.g., duplicate or missing data may cause incorrect or even misleading statistics.
  • Data preparation, cleaning, and transformation comprises the majority of the work in a data mining application (90%).

9 of 24

Kegiatan data prepocessing

  • Data cleaning (pembersihan data)
  • Data integration
  • Data Trasformation
  • Data Reduction
  • Data disretization

10 of 24

Forms of data preprocessing

11 of 24

Data Cleaning

  • Data cleaning tasks
    • Mengisi missing values
    • Mengidentifikasi atau membuang outliers
    • Membetulkan data yang tidak konsisten

12 of 24

How to Handle Missing Data?

  • Ignore the tuple: usually done when class label is missing (assuming the tasks in classification)—not effective when the percentage of missing values per attribute varies considerably.
  • Fill in the missing value manually: tedious + infeasible?
  • Use a global constant to fill in the missing value: e.g., “unknown”, a new class?!
  • Use the attribute mean to fill in the missing value
  • Use the attribute mean for all samples belonging to the same class to fill in the missing value: smarter
  • Use the most probable value to fill in the missing value: inference-based such as Bayesian formula or decision tree

13 of 24

14 of 24

How to Handle Missing Data?

Age

Income

Team

Gender

23

24,200

Red Sox

M

39

?

Yankees

F

45

45,390

?

F

Fill missing values using aggregate functions (e.g., average) or probabilistic estimates on global value distribution

E.g., put the average income here, or put the most probable income based on the fact that the person is 39 years old

E.g., put the most frequent team here

15 of 24

Data cleaning : Noisy Data

  • Noise data adalah suatu kesalahan acak atau variasi dalam variable terukur
  • Teknik-teknik
    • Binning
      • Smoothing by bin means
      • Smoothing by bin medians
      • Smoothing by bin bundaries
    • Regression
    • Outlier Analysis

16 of 24

Metode Binning

  • Melakukan pengelompokan terhadap kumpulan data
  • Urutan proses binning
    • Urutkan data secara ascending
    • Lakukan partisi kedalam bins
      • Dapat menggunakan equal-width (jarak) atau equal-depth(frekuensi)
    • Kemudian dapat di-smoothing

17 of 24

Partisi dalam metode binning

  • Partisi equal-width (jarak)
    • Algoritma membagi data kedalam k interval ukuran yang sama. Lebar interval adalah
      • W=(max-min)/k
    • Batas interval adalah
      • Min+w, min+2w,.., min+(k-1)w
    • Partisi Equal-depth
      • Membagi data kedalam k kelompok dimana tiap kelompok berisi jumlah data yang sama

18 of 24

Contoh

  • Data : 0, 4, 12, 16, 16, 18, 24, 26, 28
  • Equal width
    • Bin 1 = 0,1 [-,10]
    • Bin 2 = 12,16,16,18 [10,20]
    • Bin 3 = 24, 26, 28 [20,+]
  • Equal depth
    • Bin 1 = 0, 4, 12
    • Bin 2 = 16, 16, 18
    • Bin 3 = 24, 26, 28

19 of 24

Smoothing pada partisi binning

  • Smoothing berdasarkan rata-rata
    • Semua nilai ditiap bin diganti dengan rata-rata nilai tiap bin
    • Bin 1: 9, 9, 9
    • Bin 2: 22, 22, 22
    • Bin 3: 29, 29, 29
  • Smoothing berdasarkan batasan
    • Setiap nilai bin diganti dengan ilia yang paling dekat dari batas nilai
    • Batasan nilai terbentuk dari [min, max] tiap bin
    • Bin 1: 4, 4, 15
    • Bin 2: 21, 21, 24
    • Bin 3: 25, 25, 34

20 of 24

Data cleaning : outliers

21 of 24

Integrasi data

  • Data dapat bersumber dari beberapa sumber
  • Teknik
  • Analisis korelasi
  • Atribut redudan
  • duplikasi

22 of 24

Data Trasformation

  • Tujuannya diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami
  • Strategi :
  • Smoothing
  • Attribute (feature) construction
  • Aggregation
  • Normalization
  • Discretization

23 of 24

Data Trasformation : Normalization

  • Unit ukuran dapat mempengaruhi analisis data.
  • Unit yang lebih kecil akan menghasilkan rentang nilai yang besar
    • Atribut akan memiliki “bobot” yang lebih besar dari atribut lain
  • Sehingga
    • Data perlu dinormalisasi atau dibakukan.
  • Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
  • Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering

24 of 24

Data Transformation: Discretization

  • Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya : bawah, tengah, atas)