1 of 19

Data Mining

Modul 2

Data Understanding & Preprocessing Dasar

Sistem Informasi - Universitas Pamulang

ikhwan Fauzi, S.Kom., M.Kom.

2 of 19

    • Memahami hubungan antara Big Data dan Data Mining.
    • Mengidentifikasi tipe data dan karakteristik dataset.
    • Memahami permasalahan umum pada data seperti missing value.
    • Menjelaskan metode penanganan missing value dengan imputasi sederhana.
    • Memahami konsep encoding data kategorikal.
    • Melakukan data preprocessing menggunakan Python (Pandas)

Tujuan Pembelajaran

Sistem Informasi - Universitas Pamulang

3 of 19

Evolusi Big Data menuju Data Mining

Sistem Informasi - Universitas Pamulang

Perkembangan teknologi informasi menyebabkan jumlah data yang dihasilkan meningkat secara signifikan. Data tersebut berasal dari berbagai sumber seperti:

    • media sosial
    • transaksi e-commerce
    • sensor Internet of Things (IoT)
    • sistem informasi organisasi

Fenomena ini dikenal sebagai Big Data.

Data dalam jumlah besar tidak secara langsung menghasilkan informasi. Oleh karena itu diperlukan proses Data Mining.

4 of 19

Evolusi Big Data menuju Data Mining

Sistem Informasi - Universitas Pamulang

Data Mining merupakan proses menemukan pola, hubungan, atau pengetahuan baru dari dataset menggunakan teknik statistik, machine learning, dan basis data.

Contoh penerapan Data Mining:

5 of 19

Karakteristik Big Data

Sistem Informasi - Universitas Pamulang

Big Data memiliki lima karakteristik utama yang dikenal dengan konsep 5V.

6 of 19

Dalam proses Data Mining, memahami jenis data sangat penting karena mempengaruhi metode analisis yang digunakan.

Tipe Data dalam Dataset

Sistem Informasi - Universitas Pamulang

    • Numerical
    • Categorical
    • Ordinal
    • Binary

7 of 19

Dataset dalam dunia nyata sering memiliki beberapa permasalahan yang dapat mempengaruhi hasil analisis.

Permasalahan tersebut antara lain:

Karakteristik Dataset

Sistem Informasi - Universitas Pamulang

    • Missing Value (Data yang tidak memiliki nilai.)
    • Noise (Data yang tidak akurat atau mengandung kesalahan.)
    • Outlier (Nilai yang sangat berbeda dibandingkan data lainnya.)
    • Perbedaan Skala Data

Contoh:

      • umur: 20–60
      • pendapatan: jutaan rupiah

Masalah tersebut perlu ditangani melalui proses data preprocessing.

8 of 19

Missing value adalah kondisi ketika suatu atribut dalam dataset tidak memiliki nilai.

Missing Value

Sistem Informasi - Universitas Pamulang

9 of 19

Metode Penanganan Missing Value

Sistem Informasi - Universitas Pamulang

10 of 19

Sebagian besar algoritma machine learning hanya dapat memproses data numerik. Oleh karena itu data kategorikal perlu diubah menjadi bentuk numerik melalui proses encoding.

Encoding Data Kategorikal

Sistem Informasi - Universitas Pamulang

Jenis Encoding Populer

11 of 19

Praktikum — Data Preprocessing dengan Python

Sistem Informasi - Universitas Pamulang

Import Library

Membuat Dataset

12 of 19

Praktikum — Data Preprocessing dengan Python

Sistem Informasi - Universitas Pamulang

Melihat informasi dataset.

Statistik Dataset

Mengecek missing value

13 of 19

Praktikum — Data Preprocessing dengan Python

Sistem Informasi - Universitas Pamulang

Simple Imputation

14 of 19

Praktikum —Encoding

Sistem Informasi - Universitas Pamulang

Label Encoding

15 of 19

Praktikum —Encoding

Sistem Informasi - Universitas Pamulang

One-hot Encoding

16 of 19

Praktikum Mandiri

Sistem Informasi - Universitas Pamulang

Lakukan:

    • preprocessing Sederhana
    • Simple imputation
    • Encoding

17 of 19

    • Data Understanding merupakan tahap awal dalam proses Data Mining.
    • Dataset sering memiliki permasalahan seperti missing value dan data kategorikal.
    • Missing value dapat ditangani dengan imputasi sederhana seperti mean dan mode.
    • Data kategorikal perlu diubah menjadi numerik melalui encoding.
    • Tools seperti Pandas sangat membantu dalam proses data preprocessing sebelum analisis data dilakukan.

Kesimpulan

Sistem Informasi - Universitas Pamulang

18 of 19

Tugas

Lakukan:

    • preprocessing Sederhana
    • Simple imputation
    • Encoding

Sistem Informasi - Universitas Pamulang

Scan QR

Unduh di:

https://s.id/DM-dataset2

19 of 19

Thank You

For Your Attention

Sistem Informasi - Universitas Pamulang