Data Mining
Modul 2
Data Understanding & Preprocessing Dasar
Sistem Informasi - Universitas Pamulang
ikhwan Fauzi, S.Kom., M.Kom.
Tujuan Pembelajaran
Sistem Informasi - Universitas Pamulang
Evolusi Big Data menuju Data Mining
Sistem Informasi - Universitas Pamulang
Perkembangan teknologi informasi menyebabkan jumlah data yang dihasilkan meningkat secara signifikan. Data tersebut berasal dari berbagai sumber seperti:
Fenomena ini dikenal sebagai Big Data.
Data dalam jumlah besar tidak secara langsung menghasilkan informasi. Oleh karena itu diperlukan proses Data Mining.
Evolusi Big Data menuju Data Mining
Sistem Informasi - Universitas Pamulang
Data Mining merupakan proses menemukan pola, hubungan, atau pengetahuan baru dari dataset menggunakan teknik statistik, machine learning, dan basis data.
Contoh penerapan Data Mining:
Karakteristik Big Data
Sistem Informasi - Universitas Pamulang
Big Data memiliki lima karakteristik utama yang dikenal dengan konsep 5V.
Dalam proses Data Mining, memahami jenis data sangat penting karena mempengaruhi metode analisis yang digunakan.
Tipe Data dalam Dataset
Sistem Informasi - Universitas Pamulang
Dataset dalam dunia nyata sering memiliki beberapa permasalahan yang dapat mempengaruhi hasil analisis.
Permasalahan tersebut antara lain:
Karakteristik Dataset
Sistem Informasi - Universitas Pamulang
Contoh:
Masalah tersebut perlu ditangani melalui proses data preprocessing.
Missing value adalah kondisi ketika suatu atribut dalam dataset tidak memiliki nilai.
Missing Value
Sistem Informasi - Universitas Pamulang
Metode Penanganan Missing Value
Sistem Informasi - Universitas Pamulang
Sebagian besar algoritma machine learning hanya dapat memproses data numerik. Oleh karena itu data kategorikal perlu diubah menjadi bentuk numerik melalui proses encoding.
Encoding Data Kategorikal
Sistem Informasi - Universitas Pamulang
Jenis Encoding Populer
Praktikum — Data Preprocessing dengan Python
Sistem Informasi - Universitas Pamulang
Import Library
Membuat Dataset
Praktikum — Data Preprocessing dengan Python
Sistem Informasi - Universitas Pamulang
Melihat informasi dataset.
Statistik Dataset
Mengecek missing value
Praktikum — Data Preprocessing dengan Python
Sistem Informasi - Universitas Pamulang
Simple Imputation
Praktikum —Encoding
Sistem Informasi - Universitas Pamulang
Label Encoding
Praktikum —Encoding
Sistem Informasi - Universitas Pamulang
One-hot Encoding
Praktikum Mandiri
Sistem Informasi - Universitas Pamulang
Lakukan:
Kesimpulan
Sistem Informasi - Universitas Pamulang
Tugas
Lakukan:
Sistem Informasi - Universitas Pamulang
Scan QR
Unduh di:
https://s.id/DM-dataset2
Thank You
For Your Attention
Sistem Informasi - Universitas Pamulang