1 of 114

1

Final Project

Data Science

Oleh

Bulan Nurlaela

2 of 114

‹#›

3 of 114

Hello 👋🏻

Bulan Nurlaela

    • Riwayat Pendidikan
      • SMK Arrahman Depok | Otomatisasi Tata Kelola Perkantoran | Nilai Akhir 83.13
    • Pekerjaan
      • Staff Administrasi | Kementerian Agama kota Depok | Magang | Maret - April 2022
      • Petugas Pemutakhiran Data Pemilih Pemilihan Daerah | Paruh Waktu | Agustus - September 2024

‹#›

4 of 114

No

Kompetensi

1

Mampu Membuat Data Frame Berupa Baris dan Kolom

2

Mampu Melakukan Analisis Data Menggunakan Measures of Central Tendency dan Measures of Variability

3

Mampu Melakukan Hingga Menganalisis Hasil Uji T-Test pada Python

4

Mampu Menerapkan Proses Exploratory Data Analysis (EDA)

5

Mampu Menerjemahkan Data Menjadi Visualisasi Data

6

Mampu Mengimplementasikan Machine Learning Model Menggunakan Algoritma Supervised atau Unsupervised Learning

7

Mampu Mengimplementasikan Deep Learning Model Menggunakan Algoritma Artificial Neural Networks (ANN)

‹#›

5 of 114

    • Case 01: Sales Force Training
    • Case 02: Housing Price
    • Case 03: Machine Learning
    • Case 04: Deep Learning

Penutup

Table of Content

6 of 114

01: Sales Force Training

6

Background Overview

Perusahaan X ingin meningkatkan penjualan mereka. Dari data penjualan sebelumnya menunjukkan bahwa penjualan rata-rata yaitu $100 per transaksi. Setelah melakukan training kepada pekerja sales, data penjualan terbaru (yang diambil dari 25 sampel pekerja sales) tersimpan dalam tabel data di bawah ini :

Transactions Amount

100

150

50

100

130

120

100

85

70

150

150

120

50

100

100

140

90

150

50

90

120

100

110

75

65

Rumusan Masalah

  • Apakah terdapat peningkatan signifikan dalam jumlah transaksi setelah pelatihan?
  • Bagaimana pengaruh pelatihan pekerja sales terhadap rata-rata penjualan per transaksi di Perusahaan X?

Metode Analisis (Uji Statistika)

  • Descriptive Statistics; measure of Central tendency dan measure of variability
  • Inferential Statistics; Hypothesis Testing (One-Sample T-Test)

7 of 114

Scan kode di atas atau klik di sini

File Proyek

8 of 114

01: Sales Force Training

8

Flowchart

9 of 114

01: Sales Force Training

9

Data Preparation

Membuat DataFrame dari data transaksi perusahaan X

Mempersiapkan library

Melihat tampilan persebaran data secara acak

Menyimpan data menjadi file csv untuk dokumentasi

10 of 114

01: Sales Force Training

10

Analisa measure of Central Tendency:

  1. Rata-rata naik 2.6%, namun kenaikannya terlalu kecil untuk diambil kesimpulan tanpa uji statistik lebih lanjut.
  2. Median tetap di 100, menunjukkan distribusi data yang seimbang
  3. Modus yang sama dengan median dan rata-rata mengindikasikan distribusi data yang hampir simetris.

Analisa Measure of Variability:

  1. Range yang besar (100) menunjukkan variasi yang signifikan dalam penjualan.
  2. Standar deviasi tinggi (31.18) mengindikasikan ketidakkonsistenan performa sales.
  3. Sebagian besar penjualan berkumpul di sekitar median 100, meskipun terdapat data yang tinggi hingga 150.
  4. 75% data berada di bawah 120, mengindikasikan transaksi di atas 120 adalah outlier.

Data Understanding - Descriptive Statistics

11 of 114

01: Sales Force Training

11

Hypothesis Testing

Mendefinisikan Hypothesis yang dilakukan;

H0 = Penjualan rata-rata setelah training = $100

H1 = Penjualan rata-rata setelah pelatihan > $100

Aturan p-value dalam mengambil keputusan;

  • p-value ≤ α: Tolak hipotesis nol (H0).
  • p-value > α: Terima Hypothesis nol (H0)

Aturan dari Test Statistic dan Critical Region ;

  • test statistic jatuh di dalam critical region; tolak H0
  • test statistic jatuh di luar critical region; Terima H0

Data Understanding - Inferential Statistics

12 of 114

01: Sales Force Training

12

Keputusan

  • Berdasarkan hasil yang didapatkan; p-value > significance level (alpha) dan t-statistics < critical value (d lluar critical region), maka gagal menolak H0—”Penjualan rata-rata setelah training = $100”
  • yang berarti tidak ada cukup bukti untuk menyatakan bahwa training tersebut meningkatkan penjualan secara signifikan, serta belum atau bukan strategi yang efektif untuk meningkatkan rata-rata jumlah transaksi pekerja sales di perusahaan X.

Ending - Conclusion

13 of 114

02: Housing Price

Background Overview

Dalam era informasi saat ini, banyaknya data yang tersedia mengenai properti, seperti ukuran, lokasi, dan kualitas bangunan, dapat memberikan wawasan yang berharga jika dianalisis dengan tepat. Data ini, ketika digabungkan dan dianalisis, dapat membantu dalam memahami dinamika pasar serta memberikan panduan bagi keputusan investasi. Penelitian sebelumnya menunjukkan bahwa variabel seperti lokasi dan ukuran tanah memainkan peran penting dalam menentukan harga properti, tetapi hubungan ini belum sepenuhnya dipahami.

Rumusan Masalah: Apa saja faktor-faktor yang mempengaruhi harga jual properti dalam dataset "Housing Price"?

Metode Analisis: Exploratory Data Analysis dan Transformasi Data (Log Transformation)

13

14 of 114

File Proyek

‹#›

15 of 114

02: Housing Price

15

Flowchart

16 of 114

02: Housing Price

16

Data Preparation

Mengimport library dan dataset yang akan digunakan. Dalam kasus ini, dataset Housing Price.

Data Understanding

Melihat tipe dan persebaran data

17 of 114

02: Housing Price

17

Terdapat 19 variabel yang memiliki NaN. 4 variabel di antaranya memiliki lebih dari 80% dataset adalah nilai NaN. Untuk itu, diperlukan untuk melihat persebaran nilai NaN yang ada, terutama PoolQC, MiscFeature, Alley dan Fence sebagai variabel penyumbang nilai NaN terbanyak dalam dataset.

Persebaran data pada variabel tertinggi yang memiliki nilai NaN: Bagaimana? Apakah columns yang memiliki peringkat nan tertinggi memang mencerminkan keadaannya? Apakah persebaran nilai nan dapat dilihat pada dataset (sebagaimana mestinya)?

Adapun persebaran missing value atau NaN yang sebenarnya dalam dataset:

Data Exploratory

Columns

18 of 114

02: Housing Price

18

Persentase baris yang ada (minimal 1) nilai NaN. Artinya,dalam dataset, setiap baris memiliki setidaknya satu kolom yang berisi nilai NaN dan tidak ada baris yang sepenuhnya bebas dari nilai NaN

Analisa:

  1. Angka 23.46% menunjukkan persentase kolom yang mengandung nilai NaN dari total 81 kolom. Ini menunjukkan bahwa menghapus kolom-kolom yang mengandung NaN lebih efektif dibandingkan menghapus baris-baris yang mengandung NaN.
  2. Penghapusan kolom dalam kasus ini mengubah bentuk dataset secara signifikan, tetapi tetap mempertahankan informasi penting yang tersisa di baris-baris lainnya.
  3. Dengan kata lain, jika dataset kehilangan 23.46% dari kolom yang ada, hasil analisis mungkin masih valid, dibandingkan jika baris-baris yang mengandung NaN dihapus seluruhnya, yang berpotensi menghilangkan banyak data penting.

Perbandingan rows yang memiliki setidaknya satu nilai nan.

Perbandingan columns yang memiliki setidaknya satu nilai nan.

19 of 114

02: Housing Price

19

Dataset bersih yang dimiliki; variabel house_dropnan

Memisahkan dataset menjadi kategorikal dan numerikal variabel

Menyimpan variabel numerik dan kategorik sebagai dataset csv dan backup dokumentasi

20 of 114

02: Housing Price

20

Analisa:

  1. Sebagian besar properti (lebih dari 90%) termasuk dalam kategori AllPub, menunjukkan 1459 properti memiliki akses lengkap ke fasilitas.
  2. Properti kategori NoSeWa sangat sedikit, hanya 0.06%, menunjukkan kurangnya minat pada properti dengan fasilitas terbatas (hanya listrik dan gas).
  3. Ketimpangan besar antara kedua kategori menunjukkan adanya data yang tidak seimbang.

Rumusan masalah:

  1. Mengapa properti AllPub lebih mendominasi? Apakah karena lebih diinginkan dan bernilai?
  2. Apakah ketimpangan ini menunjukkan keberhasilan dalam penyediaan properti yang layak sesuai standar?

Insight:

Properti dengan kategori AllPub lebih bernilai karena menyediakan fasilitas lengkap yang lebih diminati pasar, sementara properti dengan NoSeWa jarang ada karena tidak memenuhi standar kenyamanan pembeli.

21 of 114

02: Housing Price

21

Analisis:

  1. Gaya 1Story mendominasi dengan 726 unit (49.73%) dan 2Story berada di posisi kedua dengan 445 unit (30.48%), bersama-sama menyumbang lebih dari 80% dari total properti. Ini menunjukkan preferensi pasar terhadap desain yang lebih umum.
  2. Gaya rumah lain seperti 1.5Fin, SLvl, dan SFoyer memiliki kemunculan yang jauh lebih rendah, menandakan penyimpangan dari tren utama.

Rumusan Masalah:

  1. Apa yang menyebabkan dominasi 1Story dan 2Story?
  2. Mengapa gaya lain memiliki kemunculan rendah?
  3. Bagaimana ketidakseimbangan ini memengaruhi harga?

Insight:

Pasar lebih memilih 1Story dan 2Story karena praktis. Gaya lain kurang diminati, mencerminkan preferensi desain umum. Ketidakseimbangan ini dapat berdampak pada harga, dengan 1Story dan 2Story, lebih kompetitif.

22 of 114

02: Housing Price

22

Analisis

  1. Persebaran data kualitas eksterior tidak merata, dengan 62.05% properti memiliki kualitas rata-rata. 488 properti memiliki kualitas baik, namun di bawah standar TA.
  2. Hanya 3.56% properti dinilai Excellent, menunjukkan penggunaan material berkualitas tinggi sangat sedikit. Kategori Fa mendekati Excellent dengan 5%, dan tidak ada properti berkategori Poor, menunjukkan tidak ada yang benr-benar buruk..

Rumusan Masalah:

  1. Apa indikator penilaian kualitas material?
  2. Apakah ketiadaan properti Poor menunjukkan standar kualitas terjaga?
  3. Apakah agen/pembangun lebih memprioritaskan properti standar daripada meningkatkan kualitas?
  4. Apakah penilaian ini memengaruhi variabel lain?

Insight:

Mayoritas properti memiliki kualitas eksterior rata-rata, dengan sedikit yang mencapai Excellent. Pasar cenderung fokus pada standar umum, dengan kesenjangan signifikan antara properti berkualitas rata-rata dan yang lebih tinggi.

23 of 114

02: Housing Price

23

Analisis:

  1. Distribusi Right Skewness, menandakan adanya nilai outlier yang menarik rata-rata ke nilai yang lebih tinggi.
  2. Sebagian besar rumah dijual dengan harga 100.000 - 200.000, menunjukkan lebih banyak transaksi pada rumah dengan harga lebih terjangkau. Ini mencerminkan preferensi kelas menengah yang mencari harga terjangkau. Di mana Harga rendah meningkatkan permintaan, sesuai hukum permintaan-penawaran.

Rumusan Masalah:

  1. Mengapa rumah mahal memiliki penjualan rendah? Apakah terkait kelas sosial?.
  2. Apakah kelas menengah memilih rumah murah karena anggaran atau fasilitas?
  3. Bagaimana tren harga memengaruhi pembelian?
  4. Apakah kualitas mempengaruhi persebaran harga?

Insight:

Mayoritas pembeli adalah kelas menengah yang mencari rumah terjangkau, sesuai tren permintaan pada harga rendah. Properti mahal memiliki penjualan rendah, mungkin terkait daya beli terbatas.

24 of 114

02: Housing Price

24

Analisis:

  1. Distribusi right skewness menunjukkan konsentrasi data pada nilai rendah dengan beberapa outlier berupa properti besar.
  2. Data tidak seimbang, mayoritas properti terletak dalam rentang luas 1000 - 2000 (20 - 140 properti).
  3. Standar deviasi menunjukkan variasi besar dalam ukuran bangunan, mengindikasikan pengaruh kelas sosial terhadap karakteristik properti.

Rumusan Masalah:

  1. Seberapa besar pengaruh kelas sosial dalam pemilihan properti?
  2. Bagaimana ukuran GrLivArea memengaruhi harga, kualitas properti dan variabel lainnya?
  3. Apa implikasi distribusi tidak seimbang ini pada analisis pasar?

Insight:

Mayoritas properti kecil dengan beberapa besar mencerminkan segmentasi pasar menurut kelas sosial. Variasi ukuran GrLivArea mempengaruhi harga, di mana properti besar menarik segmen kaya dan properti kecil lebih diminati oleh pembeli anggaran terbatas. Distribusi yang tidak seimbang menunjukkan perlunya analisis mendalam tentang dinamika pasar.

25 of 114

02: Housing Price

25

Analisis:

  1. Distribusi PoolArea skewed ke kanan, mayoritas kolam berukuran kecil.
  2. Rata-rata lebih tinggi dari median, menunjukkan outlier dengan kolam besar.
  3. Standar deviasi tinggi mengindikasikan variasi ukuran kolam yang besar.

Rumusan Masalah:

  1. Apa penyebab variasi ukuran kolam?
  2. Mengapa properti dengan kolam besar jarang?
  3. Bagaimana luas kolam memengaruhi harga properti?

Insight:

Mayoritas properti memiliki kolam kecil, sementara kolam besar merupakan outlier, menunjukkan segmentasi pasar antara kelas menengah dan atas.

Karena memiliki banyak data yang bernilai 0, maka nilai 0 padabvariabel PoolArea harus di filter terlebih dahulu.

26 of 114

02: Housing Price

26

Analisis:

  1. Rata-rata memiliki nilai yang lebih besar daripada media menujukkan distribusi right skewness diana mayoritas properti dengan garasi kecil dan beberapa outlier garasi besar.
  2. Standar deviasi tinggi mengindikasikan variasi signifikan dalam ukuran garasi (lebih dari rata-rata)

Rumusan Masalah:

  1. Seberapa besar pengaruh ukuran garasi pada nilai jual properti, terutama pada segmen menengah ke bawah?
  2. Mengapa properti dengan garasi besar menjadi pilihan bagi segmen tertentu saja?
  3. Apakah tren preferensi ini terkait erat dengan status ekonomi atau hanya preferensi fasilitas?

Insight:

Ukuran garasi yang besar berkontribusi pada nilai jual properti yang lebih tinggi, menarik segmen kaya yang membutuhkan ruang lebih besar. Properti kecil lebih diminati oleh pembeli dengan anggaran terbatas, mencerminkan segmentasi pasar yang dipengaruhi oleh status ekonomi. Hal tersebut juga sejalan dengan hukum permintaan dan penawaran pada variabel SalePrice (Harga rumah)

* Sama seperti PoolArea, variabel GarageArea juga memiliki nilai 0. Karena itu harus difilter (pada saat data cleaning)

27 of 114

02: Housing Price

27

Sejauh ini ….

Keempat variabel memperlihatkan ketidakseimbangan distribusi, dengan mayoritas properti berukuran kecil dan terjangkau, namun terdapat properti dengan ukuran besar atau luas (mewah) sebagai outlier. Ketidakseimbangan ini menggambarkan segmentasi pasar berdasarkan kelas sosial dan preferensi, memberikan panduan bagi analisis harga dan korelasi antar variabel properti lebih lanjut.

28 of 114

02: Housing Price

28

Pemrosesan variabel numerik

Analisis:

  1. Dstribusi SalePrice yang sudah ditransformasi dengan log10 menunjukkan data yang lebih seimbang.
  2. Mean dan median mendekati nilai yang sama, menandakan distribusi lebih imetris.
  3. Standar deviasi rendah (0.17) menunjukkan variasi harga yang kecil setelah transformasi.

Rumusan Masalah:

  1. Apakah transformasi log10 membantu mengurangi pengaruh outlier pada harga properti?
  2. Bagaimana distribusi harga berubah setelah transformasi?

Insight:

Transformasi log10 berhasil menyeimbangkan distribusi harga, membuat analisis lebih akurat dengan mengurangi dampak outlier pada harga properti.r

29 of 114

02: Housing Price

29

Pemrosesan variabel numerik

Analisis:

  1. Transformasi log10 pada SalePrice dan GrLivArea mengurangi skewness, membuat distribusi lebih normal.
  2. PoolArea masih menunjukkan mayoritas properti tanpa kolam, tetapi outlier luas kolam berkurang

Rumusan Masalah:

  1. Apakah transformasi log10 cukup mengurangi skewness untuk analisis yang lebih akurat?
  2. Bagaimana transformasi memengaruhi interpretasi data properti?

Insight:

Transformasi log10 membantu menormalkan distribusi, mempermudah analisis dan prediksi. Pola distribusi lebih jelas, mendukung pengambilan keputusan yang lebih baik.

30 of 114

02: Housing Price

30

Pemrosesan variabel numerik

Analisis:

  1. Rata-rata yang lebih tinggi dibandingkan median menunjukkan adanya beberapa properti dengan luas kolam renang yang jauh lebih besar, menarik rata-rata ke atas.
  2. Standar deviasi yang rendah mengindikasikan bahwa sebagian besar properti memiliki ukuran kolam yang relatif seragam, tetapi dengan kehadiran outlier yang signifikan.

Rumusan Masalah:

  1. Apakah transformasi data efektif untuk menormalkan distribusi PoolArea?
  2. Bagaimana perbedaan mean dan median mempengaruhi pemahaman ukuran kolam renang dalam pasar properti?

Insight:

Transformasi log10 membuat distribusi lebih normal dan analisis lebih akurat. Variasi kecil dalam ukuran kolam menunjukkan keseragaman di sebagian besar properti, sementara outlier mencerminkan segmentasi berdasarkan fasilitas.

31 of 114

02: Housing Price

31

Pemrosesan variabel numerik

Analisis:

  1. Transformasi log10 pada GarageArea membuat distribusi lebih seimbang meskipun masih terdapat outlier.
  2. Mean sedikit lebih rendah dari median, menunjukkan distribusi hampir simetris dengan mayoritas ukuran garasi lebih kecil.
  3. Standar deviasi rendah mengindikasikan ukuran garasi yang umumnya seragam.

Rumusan Masalah:

  1. Seberapa efektif transformasi log10 pada GarageArea dalam mengurangi skewness dan menghasilkan distribusi yang lebih normal?
  2. Bagaimana perbedaan antara mean dan median GarageArea mempengaruhi analisis nilai properti dan segmentasi pasar?

Insight:

Transformasi log10 menormalkan distribusi GarageArea, meningkatkan akurasi analisis. Ukuran garasi yang lebih konsisten mencerminkan kesamaan dalam kelas properti, sedangkan outlier mencerminkan preferensi yang lebih tinggi atau fasilitas tambahan.

32 of 114

02: Housing Price

32

Analisis:

  1. Ada hubungan linear positif antara luas area dan harga rumah, terlihat dari pola yang naik dari kiri bawah ke kanan atas.
  2. Sebagian besar data terkonsentrasi pada luas 1000-2000 dan harga 100.000-300.000, dengan beberapa outlier.
  3. Korelasi 0.71 menunjukkan hubungan kuat, tetapi faktor lain seperti lokasi dan fasilitas mungkin juga berpengaruh.

Rumusan Masalah:

  1. Bagaimana pengaruh faktor-faktor selain GrLivArea terhadap harga rumah?
  2. Seberapa besar dampak outlier terhadap hasil analisis korelasi ini?
  3. Apakah hubungan kuat antara luas area dan harga rumah berlaku untuk semua segmen pasar?

Insight:

Rumah dengan luas lebih besar cenderung memiliki harga lebih tinggi. Perlu mempertimbangkan faktor lain untuk analisis yang lebih akurat, menambah variabel seperti lokasi dapat meningkatkan prediksi harga.

33 of 114

02: Housing Price

33

Analisis:

  1. Scatterplot menunjukkan hubungan linear positif antara GarageArea dan SalePrice, di mana GarageArea yang lebih besar terkait dengan SalePrice yang lebih tinggi.
  2. Titik-titik yang tersebar agak jauh dari garis regresi menunjukkan kekuatan hubungan sedang.
  3. Korelasi Pearson sebesar 0.61 menandakan hubungan positif cukup kuat, tetapi masih taraf sedang, sehingga faktor lain tetap memengaruhi SalePrice.

Rumusan Masalah:

  1. Seberapa besar pengaruh GarageArea terhadap SalePrice?
  2. Apakah outlier pada GarageArea memengaruhi prediksi harga?
  3. Faktor lain apa yang signifikan dalam menentukan SalePrice?

Insight:

Ukuran garasi yang lebih besar berkaitan dengan harga rumah lebih tinggi, tetapi korelasi sedang dan adanya outlier menunjukkan pentingnya mempertimbangkan variabel lain dalam analisis.

34 of 114

02: Housing Price

34

Hypothesis berdasarkan p-value dan alpha

Confidence Level

Significance Level (alpha)

p-value

GrLivArea & SalePrice

GarageArea & SalePrice

95%

0.05

4.518033646776417e-223

2.0850476172658775e-140

Hypothesis Testing

Mendefinisikan Hypothesis akan yang dilakukan;

H0 = Tidak ada hubungan yang signifikan.

H1 = Terdapat hubungan yang signifikan antar variabel.

Aturan p-value dalam mengambil keputusan;

  • p-value ≤ α: Tolak hipotesis nol (H0).
  • p-value > α: Terima Hypothesis nol (H0)

GrLivArea & SalePrice:

p-value > significance level; tolak hypothesis null

GarageArea & SalePrice:

p-value > significance level; tolak hypothesis null

35 of 114

02: Housing Price

35

Hypothesis berdasarkan p-value dan alpha

Adapun pertimbangan lainnya:

Correlation Between

GrLivArea & SalePrice

GarageArena & SalePric

0.7086244776126522

0.6084052829168348

Analisis:

  1. Korelasi antara GrLivArea - SalePrice dan GarageArea - SalePrice berada dalam rentang 0.60 - 0.79, yang menunjukkan adanya hubungan positif yang kuat.
  2. Namun, nilai korelasi yang tidak mendekati 0.80 mengindikasikan bahwa kekuatannya masih kuat namun belum sangat kuat.

Rumusan Masalah:

  1. Apakah korelasi yang kuat namun belum sangat kuat ini cukup untuk memperkirakan SalePrice hanya dari GrLivArea dan GarageArea?
  2. Faktor apa saja yang mungkin memengaruhi SalePrice di luar variabel GrLivArea dan GarageArea?

Insight:

Korelasi positif antara GrLivArea, GarageArea, dan SalePrice mengindikasikan bahwa ukuran area bangunan dan garasi berperan dalam penentuan harga. Namun, korelasi yang belum sangat kuat menunjukkan bahwa faktor lain, seperti lokasi atau fasilitas tambahan, mungkin juga signifikan dalam memengaruhi harga rumah.

36 of 114

02: Housing Price

36

Conclusion

  • Variabel kategorikal Utilities, HouseStyle, dan ExterQual menunjukkan distribusi yang tidak normal dengan adanya outlier, skewness, dan ketimpangan.
  • Variabel numerik mengalami right skewness dan outlier yang menyebabkan distribusi tidak normal, sehingga perlu dilakukan transformasi. Setelah transformasi pada variabel numerik seperti SalePrice, GrLivArea, PoolArea, dan GarageArea, distribusi mendekati normal dan lebih simetris.
  • Terdapat hubungan linear signifikan antara variabel independen dan dependen, yang menolak hipotesis nol (H0).
  • Meski korelasi signifikan, faktor lain seperti lokasi, kondisi rumah, dan kondisi pasar juga mempengaruhi harga rumah, sehingga diperlukan analisis lebih mendalam.

End

37 of 114

02: Machine Learning

Background Overview

Proyek ini bertujuan untuk menganalisis preferensi pengguna terhadap anime menggunakan dataset yang berisi informasi rating dari 73.516 pengguna pada 12.294 judul anime. Dataset ini memberikan wawasan tentang bagaimana pengguna menilai dan memilih anime yang telah mereka tonton.

Rumusan Masalah: Apa faktor-faktor yang memengaruhi rating yang diberikan oleh pengguna?

Metode Analisis: Exploratory Data Analysis, Recommender System (Analisis Korelasi Collaborative filtering (item based), Content Based Filtering

Struktur Dataset

37

38 of 114

Scan kode di atas atau klik di sini

File Proyek

‹#›

39 of 114

03: Machine Learning

39

Flowchart

40 of 114

40

Data Preparation

41 of 114

03: Machine Learning

41

Penjelasan:

  • Langkah awal dalam proyek ini adalah mengimpor library dan pustaka yang akan digunakan selama analisis.
  • Pryoyek ini menggunakan dua dataset utama: anime.csv, berisi informasi detail anime, dan rating.csv, berisi rating dari pengguna.
  • Analisis dilakukan di dua platform: Google Colab dipilih untuk integrasi mudah dengan Google Drive dan dukungan library lengkap. Namun, karena batas waktu sesi di Colab, Kaggle Notebooks dipakai sebagai cadangan untuk kelanjutan analisis.

Palette1 digunakan untuk menyimpan paket warna yang konsisten sepanjang analisis pada Anime Study Case, sehingga visualisasi data menjadi lebih mudah dibaca dan menambah nilai estetik.

42 of 114

42

Data Understanding

43 of 114

03: Machine Learning

43

anime.csv

anime_id

rating

members

Count

12294

12064

12294

Mean

14058.22

6.47

18071.34

Std

11455.29

1.03

54820.68

Min

1

1.67

5

25%

3484.25

5.88

225

50%

10260.5

6.57

1550

75%

24794.5

7.18

9437

Max

34527

10

1013917

Analisis:

  • Rata-rata rating anime adalah 6.47 dengan variasi yang cukup kecil (standar deviasi 1.03), menunjukkan bahwa sebagian besar anime mendapatkan rating di kisaran yang cukup baik. Nilai maksimum rating adalah 10, menunjukkan skala rating yang umum digunakan.
  • Members memiliki distribusi yang sangat bervariasi, dengan rata-rata 18,071.34, tetapi standar deviasi yang tinggi (54,820.68) menunjukkan bahwa terdapat beberapa anime dengan anggota yang sangat banyak, sementara sebagian besar memiliki anggota yang jauh lebih sedikit.

Anime statistical information

44 of 114

03: Machine Learning

44

rating.csv

user_id

anime_id

rating

Count

7813737

7813737

7813737

Mean

36727.96

8909.07

6.14

Std

20997.95

8883.95

3.73

Min

1

1

-1

25%

18974

1240

6

50%

36791

6213

7

75%

54757

14093

9

Max

73516

34519

10

Analisis:

  • Rata-rata rating dari pengguna adalah 6.14, dengan standar deviasi yang cukup besar (3.73). Hal ini menunjukkan bahwa rating dapat bervariasi secara signifikan, termasuk adanya rating negatif (-1), yang mungkin menunjukkan data yang tidak valid atau kesalahan input.
  • Terdapat lebih dari 7,8 juta entri rating, dengan user_id dan anime_id yang menunjukkan bahwa banyak pengguna memberikan rating untuk anime yang sama. Rata-rata anime yang dinilai oleh pengguna adalah 8,909.07, menunjukkan bahwa ada banyak anime yang dinilai oleh banyak pengguna.

Rating statistical information

45 of 114

03: Machine Learning

45

Missing value

anime.csv

Total

Percent

rating

230

0.018708

genre

62

0.005043

type

25

0.002034

name

0

0

anime_id

0

0

episodes

0

0

members

0

0

rating.csv

Total

Percent

user_id

0

0

anime_id

0

0

rating

0

0

Analisis:

Tidak ada missing value dari dataset anime. Namun terdapat nilai rating negatif, yang perlu diperiksa lebih lanjut untuk memastikan kualitas data.

Analisis:

Rata-rata rating pengguna adalah 6.14 dengan standar deviasi 3.73, menunjukkan variasi signifikan, termasuk rating negatif (-1) yang mungkin akibat kesalahan input. Dengan lebih dari 7,8 juta entri, banyak pengguna memberikan penilaian pada anime yang sama, dengan rata-rata 8,909.07 anime yang dinilai per pengguna.

46 of 114

46

Data Eksploratory

47 of 114

03: Machine Learning

47

Missing value

Dari hasil sebelumnya, ditemukan bahwa hanya tiga variabel dalam dataset anime, yaitu rating, genre, dan type, yang memiliki nilai kosong atau NaN. Oleh karena itu, persebaran nilai NaN pada ketiga variabel ini akan ditinjau lebih lanjut. Untuk tahap ini, keberadaan missing value akan dieksplorasi menggunakan 3 sampel data yang diambil dari 20 baris pertama, 20 baris terakhir, dan 20 baris secara acak. Langkah ini bertujuan untuk mendapatkan gambaran yang lebih jelas—apakah persentase missing value sesuai dengan kondisi sebenarnya atau tidak.

20 baris (missing value) pertama, atau head

48 of 114

03: Machine Learning

48

20 baris (missing value) terakhir, atau tail

20 baris (missing value) acak, atau sample

49 of 114

03: Machine Learning

49

Analisa:

  1. Berdasarkan sample data yang telah diambil, jumlah nilai NaN relatif kecil dibandingkan data lainnya, yakni tidak lebih dari 1% dataset dan sesuai dengan persentase sebelumnya, sehingga dampaknya dianggap tidak signifikan. Namun, penting untuk mengetahui penyebab NaN.
  2. Variabel rating memiliki kemunculan NaN terbanyak, tetapi baris lain tetap terisi dengan baik dan tidak ditemukan NaN (agak tidak sesuai dengan persentase)

Rumusan Masalah:

  1. Bagaimana pengaruh nilai NaN pada variabel rating, genre, dan type terhadap analisis data keseluruhan?
  2. Apakah nilai NaN ini terjadi karena ketidakterekaman data atau karena memang informasi tersebut tidak tersedia?
  3. Apakah perlu dilakukan pengambilan sampel tambahan untuk memastikan distribusi nilai NaN lebih mendalam?

Insight:

  1. Lakukan investigasi terhadap asal-usul missing value untuk memastikan validitas data.
  2. Fokuskan perhatian pada variabel rating yang memiliki nilai NaN terbanyak untuk mengidentifikasi pola atau ketidaklengkapan data.
  3. Ambil sampel tambahan guna mengevaluasi dampak missing value terhadap keseluruhan dataset dan menentukan apakah tindakan perbaikan diperlukan.

50 of 114

03: Machine Learning

50

Sample lain:

Mengambil 5 sample tambahan dari baris yang memiliki nilai NaN.

Pada sample kali ini, variabel genre lah yang justru menjadi penyumbang utama nilai NaN-nya. Hal ini sesuai dengan persebaran missing value yang telah dijalankan sebelumnya.

51 of 114

03: Machine Learning

51

Analisis:

  1. seluruh sample yang telah diambil, ketiga variabel yang memiliki nilai nan/missing value tersebar secara acak dan tidak melebihi 1% dari dataset.
  2. Adapun kemungkinan penyebab missing value ialah karena data tidak terekam. Responden mungkin lupa atau tidak dapat/tahu mengisi pertanyaan tertentu, atau sistem pencatatan gagal mencatat data karena masalah teknis.

Rumusan Masalah:

Langkah apa yang dapat dilakukan untuk menangani missing value dalam variabel genre dan meningkatkan kualitas data?

Insight:

  1. Metode imputasi data akan diterapkan untuk menangani missing value pada variabel dengan nilai hilang.

    • Variabel genre dan type akan diisi dengan kategori baru "Lainnya" untuk mengatasi nilai hilang.
    • Variabel rating akan diisi dengan nilai rata-rata (mean) dari keseluruhan rating.
  • Jumlah missing value tetap dalam batas yang dapat diterima, sehingga hasil analisis tetap representatif dan akurat.
  • Adapun yang menjadi kemungkinan penyebab missing value ialah karena data tidak terekam dengan baik dan human error (user tidak tahu atau tidak dapat mengisi survei dengan benar)

52 of 114

03: Machine Learning

52

Adapun penanganan missing value yang diambil dengan menggunakan imputation;

Termasuk ke dalam kategorikal variabel, karena itu missing value atau nan harus diimputasi dengan kategori baru untuk menggantikan informasi yang tidak tercatat.

Untuk mempertahankan distribusi data tanpa kehilangan informasi yang penting.

53 of 114

03: Machine Learning

53

Setelah dilakukan imputation:

54 of 114

03: Machine Learning

54

Duplicated Value

Terdapat duplicated value/data dalam dataset anime

Shape/ukuran dari dataset rating

Bebas dari data yang duplikat

Mengecek keberadaan data yang duplikat

55 of 114

03: Machine Learning

55

Ukuran setelah drop duplicated

Drop/menghapus (salah satu) data yang duplikat

Data yang duplikat

Mengecek jumlah duplikasi dalam dataset duplicated value (rating)

56 of 114

03: Machine Learning

56

Menggabungkan kedua dataset (anime dan rating) untuk memperoleh satu dataset yang komprehensif dan dapat dilakukan dalam satu frame

Hasil penggabungan disimpan dalam format csv untuk memudahkan penggunaan ulang dan sinkronisasi file

Mulai menggunakan fulldata untuk proses analisis

57 of 114

03: Machine Learning

57

Memisahkan data menjadi numerical dan categorical

data

categorical_data

numerical_data

name

anime_id

genre

rating

type

members

episodes

user_id

rating_user

Data lengkap dari dataset anime dan rating yang sebelumnya telah digabungkan, dipisahkan menjadi dua variabel ‘categorical_data’ dan ‘numerical_data’— berdasarkan tipe datanya.

58 of 114

03: Machine Learning

58

Categorical variabel - name

  • top_com: Jumlah anggota (members) yang mengikuti atau menjadi bagian dari komunitas anime tertentu.
  • top_user: Jumlah pengguna (rating_user) yang memberikan rating pada anime tersebut.
  • top_rate: Rating tertinggi yang diperoleh anime berdasarkan (rating) dari pengguna.

59 of 114

03: Machine Learning

59

Categorical variabel - name

Analisis:

  1. Anime seperti "Death Note" dan "Shingeki no Kyojin" populer dalam top_com, namun partisipasi aktif di top_user tidak selalu sebanding.
  2. "Fullmetal Alchemist: Brotherhood" memiliki keseimbangan antara popularitas (top_com), partisipasi pengguna (top_user), dan kualitas (top_rate), menunjukkan adanya anime dengan pengakuan yang luas.
  3. Anime seperti "Mogura no Motoro" dan "Kimi no Na wa" mendapat rating tinggi di top_rate namun kurang populer di top_com, menunjukkan kualitas tidak selalu terkait jumlah penggemar.

Rumusan Masalah:

  1. Bagaimana hubungan antara popularitas, partisipasi pengguna, dan kualitas dalam menentukan peringkat anime?
  2. Apakah popularitas selalu berbanding lurus dengan rating dan jumlah pengguna yang aktif?

Insight:

  1. Popularitas tidak selalu berarti kualitas, banyak penggemar mungkin hanya menjadi anggota pasif.
  2. Anime dengan keseimbangan popularitas dan kualitas, seperti "Fullmetal Alchemist: Brotherhood," menunjukkan pengakuan tinggi.
  3. Anime dengan rating tinggi namun sedikit penggemar mengindikasikan faktor di luar rating yang memengaruhi popularitas.

60 of 114

03: Machine Learning

Categorical variabel - genre

Memisahkan genre kemudian mencari 10 genre teratas berdasarkan rating

*tidak atau bukan dari keseluruhan genre yang ada, melainkan hanya (dapat) menampilkan 20 baris pertamanya saja.

61 of 114

03: Machine Learning

Analisis:

  1. Distribusi menunjukkan dominasi genre "berat," dengan Thriller (8.24) teratas, diikuti oleh Police (8.04) dan Josei (7.98). Preferensi ini mencerminkan minat penonton pada cerita kompleks dan emosional, yang mungkin dipengaruhi oleh faktor usia. Sepuluh genre dengan rating tertinggi menunjukkan bahwa penonton menghargai anime yang memberikan pengalaman mendalam dan menggugah pemikiran.
  2. Dekatnya nilai antar rating menunjukkan persaingan ketat di industri anime, dengan tema yang menyentuh isu-isu berat.

Rumusan Masalah:

Apakah ada pola atau karakteristik dalam genre dengan rating tinggi yang dapat dijadikan panduan dalam produksi konten baru?

Insight:

  1. Penonton cenderung menyukai anime dengan tema ketegangan dan kejutan, elemen psikologis dan emosi mendalam serta nilai budaya atau sejarah yang kuat.
  2. Dengan memahami preferensi penonton pada genre berat, strategi produksi dan pemasaran dapat disesuaikan untuk meningkatkan peluang keberhasilan di genre-genre populer ini.

62 of 114

03: Machine Learning

62

Analisis:

  1. TV adalah format yang paling umum dengan 5,283,595 entri, diikuti oleh Movie dan OVA. Dan kategori Lainnya yang tidak mencapai 1% dari keseluruhan data.
  2. Nilai rata-rata dan median menunjukkan ketidakseimbangan yang signifikan dalam jumlah format penayangan anime, standard deviasi yang tinggi juga menandakan adanya outlier dalam distribusi.

Rumusan Masalah

Apa langkah yang perlu diambil untuk menangani masalah ini?

Insight

Ketidakseimbangan dalam data dapat membuat ketidakakuratan dalam analisis. Oleh karena itu, tindakan yang perlu diambil termasuk melakukan transformasi data untuk memastikan analisis yang lebih akurat dan representatif.

Categorical variabel - type

63 of 114

03: Machine Learning

63

Analisis:

  1. TV adalah format yang paling umum dengan 5,283,595 entri, diikuti oleh Movie dan OVA. Dan kategori Lainnya yang tidak mencapai 1% dari keseluruhan data.
  2. Nilai rata-rata dan median menunjukkan ketidakseimbangan yang signifikan dalam jumlah format penayangan anime, standard deviasi yang tinggi juga menandakan adanya outlier dalam distribusi.

Rumusan Masalah:

Apa langkah yang perlu diambil untuk menangani masalah ini?

Insight:

Ketidakseimbangan dalam data dapat membuat ketidakakuratan dalam analisis. Oleh karena itu, tindakan yang perlu diambil termasuk melakukan transformasi data untuk memastikan analisis yang lebih akurat dan representatif.

64 of 114

03: Machine Learning

64

Categorical variabel - episodes

Analisis:

Anime dengan 1 episode menempati posisi teratas dalam rating (9.50 dan 9.37), menunjukkan bahwa film atau OVA berdurasi singkat sering kali mendapatkan apresiasi tinggi. Meskipun anime dengan jumlah episode lebih banyak umumnya memiliki rating sedikit lebih rendah, rating tersebut tetap tinggi, seperti pada anime dengan 64, 51, dan 24 episode.

Rumusan Masalah

1. Apakah jumlah episode berpengaruh pada rating anime?

2. Mengapa anime berdurasi pendek lebih sering mendapatkan rating tinggi?

3. Apakah tantangan dalam menjaga kualitas memengaruhi rating anime panjang?

Insight

Anime singkat cenderung disukai, mungkin karena cerita yang lebih padat dan kualitas terjaga. Anime berseri atau dengan banyak episode mendapatkan rating tinggi karena alur cerita yang berkembang dan keterikatan emosional penonton dengan karakter. Namun tidak selalu dapat dijadikan patokan.

65 of 114

03: Machine Learning

65

Numerical variabel - anime_id

YAnalisis

  1. Distribusi anime_id menunjukkan ketidakseimbangan, di mana anime dengan anime_id lebih rendah jauh lebih banyak dibandingkan yang lebih tinggi.
  2. Rata-rata anime_id (8909.05) yang lebih tinggi dari median (6213.0) dan tingginya standar deviasi (8883.92) mengindikasikan adanya variasi besar, mencerminkan pertumbuhan katalog anime dari waktu ke waktu.

Rumusan Masalah

  1. Apakah distribusi anime_id memengaruhi persebaran data anime secara keseluruhan?
  2. Apakah terdapat pola khusus dalam penomoran anime_id berdasarkan tahun atau kategori anime tertentu?

Insight

Distribusi anime_id menunjukkan variasi yang luas, dengan median lebih rendah dari mean. Hal ini mengindikasikan beberapa anime memiliki anime_id yang jauh lebih tinggi dari lainnya, menunjukkan kemungkinan adanya kategori atau jenis anime yang bertambah pesat di tahun-tahun terakhir.

66 of 114

03: Machine Learning

66

Analisis:

Distribusi rating anime menunjukkan rata-rata rating sebesar 7.65, dengan median yang hampir sama, yaitu 7.68. Ini menunjukkan bahwa sebagian besar anime memiliki rating yang baik, dengan sedikit penyimpangan dari rata-rata.

Rumusan Masalah:

  1. Apa faktor yang mempengaruhi rating anime?
  2. Bagaimana sebaran rating berkontribusi terhadap persepsi kualitas anime?
  3. Apakah ada perbedaan rating yang signifikan antara genre atau tipe anime?

Insight:

Sebagian besar anime mendapatkan rating yang baik, menunjukkan bahwa penonton cenderung memberikan nilai positif. Rating yang stabil dan tidak terlalu berfluktuasi menandakan kualitas produksi yang konsisten dalam industri anime.

Numerical variabel - rating

67 of 114

03: Machine Learning

67

Analisis;

Distribusi jumlah anggota anime menunjukkan rata-rata sekitar 178,620 dengan median 110,470. Standar deviasi yang tinggi (188,176) menunjukkan adanya variasi besar dalam jumlah anggota, yang berarti beberapa anime memiliki pengikut yang sangat banyak, sementara yang lain memiliki jumlah anggota yang jauh lebih sedikit.

Rumusan Masalah:

  1. Apa yang menyebabkan perbedaan signifikan dalam jumlah anggota antara berbagai anime?
  2. Bagaimana jumlah anggota berhubungan dengan rating atau popularitas anime?
  3. Apa faktor yang mendorong anggota untuk bergabung dalam komunitas anime tertentu?

Insight:

Jumlah anggota yang tinggi mencerminkan popularitas anime, sementara variasi menunjukkan bahwa beberapa anime memiliki komunitas yang lebih solid. Anime dengan anggota rendah berpotensi untuk tumbuh jika strategi pemasaran dan promosi yang tepat diterapkan.

Numerical variabel - members

68 of 114

03: Machine Learning

68

Numerical variabel - user_id

Analisis:

  1. Distribusi user_id menunjukkan rata-rata 36,728 dan median 36,791, yang berarti jumlah pengguna sebagian besar terkonsentrasi di sekitar angka ini.
  2. Standard deviasi sebesar 20,998 menandakan adanya variasi signifikan dalam keterlibatan pengguna, dengan beberapa yang berpartisipasi jauh lebih aktif daripada yang lain.

Rumusan Masalah:

  1. Apa yang menyebabkan variasi besar dalam jumlah pengguna aktif?
  2. Faktor apa yang berkontribusi pada perbedaan tingkat aktivitas antar pengguna?
  3. Strategi apa yang efektif untuk meningkatkan keterlibatan pengguna secara merata?

Insight:

Distribusi user_id yang merata menunjukkan bahwa banyak pengguna berada di sekitar nilai rata-rata, dengan sebagian kecil yang sangat aktif, menunjukkan potensi untuk mendorong lebih banyak keterlibatan dari pengguna yang kurang aktif.

69 of 114

03: Machine Learning

69

Analisis

  1. Rata-rata sebesar 6.14 dengan median di angka 7.0. Hal ini mengindikasikan bahwa sebagian besar pengguna cenderung memberikan nilai yang cukup tinggi, walaupun ada yang memberi rating rendah.
  2. Standard deviasi sebesar 3.73 menunjukkan variasi yang signifikan dalam skor yang diberikan oleh pengguna.

Rumusan Masalah

  1. Mengapa terdapat variasi yang besar dalam rating yang diberikan pengguna?
  2. Apa yang memengaruhi preferensi pengguna dalam memberikan rating yang berbeda?
  3. Bagaimana strategi untuk meningkatkan konsistensi dalam pemberian rating?

Insight

Sebagian besar pengguna memberikan rating mendekati rata-rata, namun terdapat variasi yang luas. Untuk mendorong konsistensi dalam penilaian, mungkin diperlukan mekanisme evaluasi yang lebih terstruktur atau rekomendasi berbasis preferensi.

Numerical variabel - rating_user

70 of 114

70

Modelling

71 of 114

03: Machine Learning

71

72 of 114

03: Machine Learning

72

Data Preparation

Data Cleaning: Membersihkan data dari simbol dan kode html yang tidak relevan dan dapat mengganggu proses modelling kedepannya.

Data Transformation: mengkonversi data ke dalam bentuk matriks user-item menggunakan metode pivot table (yang lebih mudah diolah oleh model machine learning) untuk tahapan collaborative filtering.

73 of 114

03: Machine Learning

73

Sparse Matrix Conversion: Mengkonversi matriks user-item yang dalam bentuk pivot memiliki banyak nilai 0 menjadi sparse format, yang secara efisien mengoptimalkan penyimpanan data (user-item matrix) dengan menyimpan hanya nilai non-nol untuk menghemat memori.

Define Model: Menggunakan KKN models (NearestNeighbors) sebagai model dasar yang menghitung kemiripan antar pengguna atau item.

74 of 114

03: Machine Learning

74

Collaborative filtering, adalah pendekatan berbasis kesamaan antara pengguna atau item. Di sini, recommended systems bekerja dengan menganalisis pola interaksi pengguna sebelumnya terhadap item (dalam hal ini, anime). Pada contoh ini, sistem menggunakan pendekatan item-based collaborative filtering dengan mengukur kedekatan (similarity) antara anime yang telah dinilai oleh pengguna.

75 of 114

03: Machine Learning

75

Model Querying: Mendefinisikan variabel query_no untuk memilih index anime secara acak (random) berdasarkan table data_pivot, di sini yang terpilih adalah anime Sousei no Aquarion OVA. Anime tersebut yang akan menjadi dasar (query) untuk memberikan rekomendasi anime serupa kepada oengguna.

Finding Nearest Neighbors: Mengidentifikasi 10 anime yang paling mirip berdasarkan hasil query_no, yaitu Sousei no Aquarion OVA, dengan menggunakan model yang sudah dilatih sebelumnya berdasarkan nilai kesamaan (cosine similarity).

76 of 114

03: Machine Learning

76

Result Extraction: Hasil dari KKN diproses untuk mendapatkan nama, jarak(distance) dari tiap anime yang direkomendasikan berdasarkan indeks tetangga yang ditemukan.

Recommendation Output: Hasil rekomendasi diformat dalam bentuk dataframe yang rapih dan terstruktur dan yang akan ditampilkan kepada pengguna.

77 of 114

03: Machine Learning

77

No.

Anime

Rating

1

Kuroko no Basket: Saikou no Present Desu

8.340.000

2

Last Exile: Ginyoku no Fam Recaps

6.560.000

3

One Piece: Oounabara ni Hirake! Dekkai Dekkai Chichi no Yume!

7.430.000

4

Kuroko no Basket: Mou Ikkai Yarimasen ka

7.860.000

5

One Piece: Taose! Kaizoku Ganzack

6.870.000

6

Afro Samurai Pilot

6.790.000

7

Asobi ni Iku yo!: Asobi ni Oide - Owari

6.450.000

8

Acchi Kocchi (TV): Place=Princess

7.620.000

9

One Piece: Mamore! Saigo no Dai Butai

7.490.000

Recommendasi anime untuk penggemar Sousei no Aquarion OVA adalah:

78 of 114

03: Machine Learning

78

Content Based filtering, merekomendasikan item berdasarkan karakteristik konten dari item yang sudah disukai pengguna. Algoritma ini menganalisis fitur atau atribut dari item (misalnya, genre dalam film atau jenis produk) dan mencoba mencocokkan dengan item lain yang memiliki karakteristik serupa.

79 of 114

03: Machine Learning

79

Checked Memory: Memastikan pengolahan data memiliki memory yang cukup dan sesuai.

Data Preparation: Memastikan data yang sebelumnya dibersihkan untuk menghindari duplikasi dan variabel genre siap di vektorisasi, yakni memecah genre menjadi format text (yang bisa diolah sebagai feature recommendation).

80 of 114

03: Machine Learning

80

Text Vectorization: membuat representasi vektor dari genre setiap anime. Langkah ini menyiapkan data berbasis teks (yang sebelumnya dilakukan) agar bisa diukur kemiripannya.

Similarity Computation: Menghitung kesamaan antar anime berdasarkan genre yang sebelumnya diolah menggunakan sigmoid kernel, menciptakan similarity matrix.

81 of 114

03: Machine Learning

81

Model Extraction: Mengidentifikasi indeks anime berdasarkan judul yang diberikan pengguna. Indeks ini kemudian diproses untuk menghasilkan rekomendasi dengan mengurutkan anime yang paling mirip dari yang tertinggi. Singkatnya, rekomendasi yang ditampilkan kepada pengguna adalah anime teratas yang memiliki kesamaan paling kuat dengan pilihan pengguna.

Fungsi yang didefinisikan untuk menampilkan hasil rekomendasi kepada pengguna, yakni fungsi rekomendasikan.

82 of 114

03: Machine Learning

82

Analisis:

Noragami memiliki rating sebesar 8.17 dan dikenal dengan tema supernatural serta aksi.

Rekomendasi yang diberikan:

Anime seperti"Bleach Movie 2: The DiamondDust Rebellion" dan "Yuu☆Yuu☆Hakusho: Eizou Hakusho" memiliki unsur supernatural dan aksi, yang konsisten dengan tema Noragami. Judul seperti "Gensoumaden Saiyuuki Movie" dan "JoJo no Kimyou na Bouken" memiliki latar yang penuh petualangan dan aksi, mencerminkan preferensi yang serupa.

Insight:

Sistem berhasil memberikan rekomendasi anime dengan genre yang sesuai dan rating yang mirip, walaupun ada beberapa judul dengan rating yang rendah seperti "Tokyo Juushouden" yang mungkin kurang populer namun memiliki tema yang sama.

83 of 114

03: Machine Learning

83

Analisis:

Naruto, dengan rating 7.81, adalah anime aksi petualangan yang terkenal dengan kisah persahabatan, perjuangan, dan tema ninja.

Rekomendasi yang diberikan:

Sebagian besar rekomendasi seperti "Boruto: Naruto the Movie - Naruto ga Hokage ni" dan "Naruto: Shippuuden Movie 4 - The Lost Tower" adalah bagian dari franchise Naruto itu sendiri, menampilkan cerita tambahan (atau lain) yang melanjutkan tema utama. Selain itu, ada beberapa judul seperti "Battle Spirits: Ryuuko no Ken" yang mungkin tidak berhubungan langsung dengan cerita utama Naruto, tetapi memiliki aksi yang mirip dan sering kali terkait dengan petualangan epik.

Insight:

Sistem berhasil memberikan beberapa judul yang berada dalam universe Naruto sendiri, memperkuat keterkaitan cerita, namun juga menawarkan variasi dengan judul seperti "Kyutai Panic Adventure!" dan "Ranma ½," yang meskipun beraksi, mungkin berbeda dalam gaya humor atau latar.

84 of 114

03: Machine Learning

84

Analisis:

Doraemon adalah anime klasik dengan rating 7.49, dikenal dengan genre komedi dan fiksi ilmiah serta berfokus pada petualangan dengan alat-alat canggih..

Rekomendasi yang diberikan:

Sebagian besar rekomendasi, seperti "Doraemon Movie 28: Nobita to Midori no Kyojin Den" dan "Doraemon Movie 33: Nobita no Himitsu Dougu Museum," adalah bagian dari film-film Doraemon, yang mempertahankan fokus pada tema komedi ringan dan petualangan berbasis teknologi. Judul-judul film ini juga memiliki rating yang cukup konsisten, berkisar di sekitar 7.3 hingga 7.5, menunjukkan kesamaan dalam penerimaan penonton.

Insight:

Sistem memberikan rekomendasi yang sangat relevan, dengan fokus pada film-film Doraemon yang menampilkan petualangan baru namun mempertahankan daya tarik fiksi ilmiah ringan yang menjadi ciri khas Doraemon.

85 of 114

03: Machine Learning

85

Conclusion

  • Model yang dikembangkan mampu memberikan rekomendasi anime secara acak maupun berdasarkan pilihan pengguna dengan performa yang cukup baik. Namun, untuk aplikasi lebih luas dengan dataset lain, diperlukan analisis lebih lanjut guna meningkatkan akurasi.
  • Faktor-faktor seperti jumlah episode, tipe penayangan, dan genre memiliki pengaruh signifikan terhadap rating dan popularitas anime. Namun, setiap anime memiliki karakteristik unik, sehingga faktor tersebut tidak bisa menjadi patokan mutlak.
  • Penggunaan recommender system dalam machine learning akan terus berkembang, dan analisis lebih lanjut diperlukan untuk meningkatkan keefektifan model di masa mendatang.

86 of 114

Background Overview

American Sign Language (ASL) adalah bahasa visual yang digunakan oleh komunitas tunarungu dan individu dengan gangguan pendengaran di Amerika Utara. Bahasa ini memiliki tata bahasa yang khas, memadukan gerakan tangan, ekspresi wajah, dan gerakan tubuh untuk menyampaikan makna. ASL bukan hanya digunakan untuk mengeja huruf atau angka, tetapi juga untuk mengekspresikan ide, perasaan, dan konsep yang lebih kompleks. Sebagai bahasa yang kaya dan beragam, ASL berbeda dari bahasa lisan yang lebih umum digunakan.

Rumusan Masalah: Bagaimana model deep learning dapat mempelajari dan mengenali pose tangan dalam ASL?

Metode Analisis: Analisis Citra dengan Klasifikasi Gambar menggunakan model CNN(Sequencial, Keras(tensorflow), dan/atau hyperparameter tuning)

04: Deep learning / Artificial Neural Network

ASL

87 of 114

Scan kode di atas atau klik di sini

File Proyek

‹#›

88 of 114

04: Deep learning / Artificial Neural Network

88

Flowchart

89 of 114

Data Preparation

04: Deep learning / Artificial Neural Network

ASL

90 of 114

04: Deep learning / Artificial Neural Network

90

Yang akan dipakai pada kasus kali ini:

91 of 114

04: Deep learning / Artificial Neural Network

91

Data Preparation

Penjelasan:

  1. Langkah awal dalam proyek ini adalah mengimpor library dan pustaka yang akan digunakan selama proses analisis. Pada proyek ini, Keras dan Keras Tuner menjadi library utama untuk membangun serta mengoptimalkan model jaringan saraf buatan yang akan digunakan dalam prediksi.
  2. Proyek ini memanfaatkan dua dataset utama:
    1. train.csv: Data pelatihan untuk melatih model, berisi fitur dan target yang harus diprediksi.
    2. test.csv: Data pengujian untuk mengevaluasi performa model dalam memprediksi data baru yang belum pernah dilihat.
  3. Untuk proses modelling, adapun klasifikasi (binner) nya adalah:
    • Kelas positif: Masing-masing huruf ASL, dimana dalam konteks ini J dan Z dikecualikan karena memerlukan beberapa gerakan.
    • Kelas negaitg; Gambar yang tidak sesuai dengan huruf-huruf tersebut.

92 of 114

04: Deep learning / Artificial Neural Network

92

Palette1 digunakan untuk menyimpan paket warna yang konsisten sepanjang analisis pada Anime Study Case, sehingga visualisasi data menjadi lebih mudah dibaca dan menambah nilai estetik.

General Information about dataset train dan test, dari hasil yang dikeluarkan diketahui bahwa keduanya terdapat 784 kolom yang berisi data piksel, mulai dari piksel0 hingga piksel784. Kemudian, dengan anggapan bahwa gambar memiliki sisi yang sama (persegi), maka √784 = 28. Yang artinya gambar memiliki ukuran dimensi 28×28 piksel atau standar ukuran untuk MNIST dataset.

93 of 114

Data Understanding

04: Deep learning / Artificial Neural Network

ASL

94 of 114

04: Deep learning / Artificial Neural Network

94

5 baris pertama (secara default) untuk dataset train

5 baris pertama (secara default) untuk dataset test.

95 of 114

04: Deep learning / Artificial Neural Network

95

5 baris terakhir (secara default) untuk dataset train

5 baris terakhir (secara default) untuk dataset test.

96 of 114

Data Eksploratory

04: Deep learning / Artificial Neural Network

ASL

97 of 114

04: Deep learning / Artificial Neural Network

97

Mengambil semua nilai dari kolom label pada dataset train kemudian menyimpannya dalam varisbel labels untuk diubah menjadi bentuk numpy array agar lebih efisien untuk premosesan data numerik.

Mengambil nilai unik dari variabel labels yang sebelumnya didefinisikan

98 of 114

04: Deep learning / Artificial Neural Network

98

Analisa:

Distribusi data dapat dikatakan mendekati normal. Dalam hal ini, terdapat 24 label yang mewakili masing-masing huruf yang ada pada American Sign Language, terkecuali huruf J dan Z.

Tidak adanya kelas yang sangat dominan atau sangat minoritas menunjukkan dataset ini cukup seimbang, yang baik untuk performa model.

99 of 114

Modelling

04: Deep learning / Artificial Neural Network

ASL

100 of 114

04: Deep learning / Artificial Neural Network

100

Label separation from dataset

Label Binarization (One-hot Encoding)

Image Data Conversion and Normalization

101 of 114

04: Deep learning / Artificial Neural Network

101

Augmentation

Overview Image Result

102 of 114

04: Deep learning / Artificial Neural Network

102

Define Model; sequencial

Output Layer of models

103 of 114

04: Deep learning / Artificial Neural Network

103

Analisa:

  1. Epoch 1: Akurasi pelatihan 46.43% (loss 1.8284), akurasi validasi 16.76%. Model masih dalam tahap belajar.
  2. Epoch 6: Akurasi pelatihan 98.50% (loss 0.0477), akurasi validasi 95.71% (loss 0.1119). Model mulai menggeneralisasi dengan baik.
  3. Epoch 10: Akurasi validasi 100% (loss 0.0019). Model sangat baik dalam mengenali data uji.
  4. Epoch 20: Akurasi pelatihan 99.90% (loss 0.0037), akurasi validasi tetap 100%. Potensi overfitting mungkin ada.

Insight:

Meskipun model mencapai akurasi 100% pada data uji, analisis lebih lanjut diperlukan untuk memastikan bahwa model tidak overfit dan mampu beradaptasi dengan data baru.

Hasil Uji Akurasi

104 of 114

04: Deep learning / Artificial Neural Network

104

Mendefinisikan Hyperparameter Tuning - menggunakan random search

105 of 114

04: Deep learning / Artificial Neural Network

105

Prediksi yang benar (True Predictions)

Prediksi yang salah (False Predictions)

Visualisasi Hasil Prediksi Model CNN pada Data Uji (x_test)

True Positive

False Positive

*False Negative (FN) dan True Negative (TN) tidak teridentifikasi dalam gambar ini karena seluruh prediksi berkaitan dengan kelas positif

106 of 114

Evaluation

04: Deep learning / Artificial Neural Network

ASL

107 of 114

04: Deep learning / Artificial Neural Network

107

Sebagian prediksi kelas R salah, model kesulitan dalam mengklasifikasikan banyak contoh kelas R yang ada.

Memiliki ketepatan 98% dalam memprediksi kelas L, model berhasil dalam seluruh data positif dan memiliki rata-rata harmonis (gambaran keseimbangan model)

Rentang kelas (A - E) di mana model mengenali dengan sangat baik kelas-kelas tersebut.

Rentang kelas (Q - U) di mana model menunjukkan kesulitan dalam mengenali atau membedakan kelas-kelas tersebut.

108 of 114

04: Deep learning / Artificial Neural Network

108

Analisis Table Classification Report:

  1. Model berkinerja sangat baik untuk label seperti A, B, dan E, dengan precision, recall, dan F1-score yang mendekati 1.00.
  2. Namun, model memiliki kesulitan pada label R yang memiliki precision dan recall rendah (masing-masing 0.34 dan 0.46), sehingga perlu diperbaiki lebih lanjut, misalnya dengan menambahkan lebih banyak data latihan atau menggunakan teknik regularisasi untuk mencegah kesalahan prediksi pada label ini.
  3. Label-label lainnya, seperti K dan M, juga mengalami penurunan performa, yang mungkin disebabkan oleh kesulitan dalam membedakan beberapa gestur dalam bahasa isyarat.

Rumusan masalah:

  1. Mengapa model berkinerja sangat baik pada label A, B, dan E, tetapi kesulitan dalam mengenali label R dan beberapa kelas lainnya?

Insight:

Akurasi keseluruhan yang baik, namun perlu fokus pada kelas-kelas dengan performa rendah: Model memiliki akurasi tinggi pada beberapa kelas, namun masih kesulitan pada beberapa kelas lainnya, yang mungkin memerlukan peningkatan dari segi data atau arsitektur model.

109 of 114

04: Deep learning / Artificial Neural Network

109

Analisis:

  1. Model accuracy menunjukan kecepatan model dalam memahami data yang ada. Dalam hal ini, dalam 2 atau 3 epoch model mampu hampir mencapai angka 100%, namun akurasi yang ditampilkan juga menunjukkan adanya pengurangan dalam beberapa epoch lainnya.
  2. Pada awal pelatihan (mungkin antara epoch ke-tiga dan ke-lima), terlihat model mengalami loss atau kerugian dalam training. Akan tetapi, di beberapa kesempatan model juga mengalami peningkatan yang signifikan dalam training. Yang menunjukkan kecepatan model dalam beradaptasi..

Insight:

Dari grafik loss dan accuracy, kita dapat menyimpulkan bahwa model ini menunjukkan performa yang sangat baik pada data latih dan validasi, namun performa yang sempurna ini dapat mengindikasikan adanya risiko overfitting. Oleh karena itu, evaluasi tambahan dengan data uji dan penerapan teknik regularisasi sangat disarankan untuk memastikan model mampu menggeneralisasi dengan baik pada data yang baru.

110 of 114

04: Deep learning / Artificial Neural Network

110

Analisis:

  1. Confusion matrix (Heat map) ini menunjukkan performa model pada setiap kelas, dengan sumbu actual sebagai label sebenarnya dan prediksi sebagai label yang diprediksi oleh model.
  2. Kotak diagonal menunjukkan prediksi yang benar, sementara angka-angka di luar diagonal menunjukkan prediksi yang salah.
  3. Sebagian besar prediksi berada di diagonal, yang berarti model memiliki performa yang baik dalam mengenali sebagian besar kelas.
  4. Namun, ada beberapa kesalahan di kelas tertentu. Misalnya, beberapa huruf seperti 'R', 'K', dan 'N' tampaknya memiliki lebih banyak kesalahan prediksi dibandingkan huruf lainnya. Ini menunjukkan bahwa model masih mengalami kesulitan dalam membedakan huruf-huruf tersebut.

111 of 114

Sejauh ini, jika ….

111

Model bagus … memiliki akurasi yang tinggi dan juga dapat mengidentifikasi True Positives dengan baik, di mana model memprediksi kelas yang benar (misalnya, gambar tangan untuk huruf tertentu dalam bahasa isyarat) dan itu benar-benar sesuai dengan label yang sebenarnya. Meskipun mungkin masih ada beberapa kesalahan. Hal ini menunjukkan bahwa model sudah cukup baik dan bisa diandalkan untuk sebagian besar prediksi.

Model kurang bagus … sering terjadi kesalahan pada kelas tertentu, maka model perlu diperbaiki, misalnya dengan tuning atau peningkatan data.

112 of 114

Conclusion

  1. Model sudah menunjukkan performa yang baik. Walaupun dalam beberapa kelas seperti label K, R dan N, model mengalami incorrect dalam memprediksinya (baik dalam train maupun test), model mampu membedakannya dan mengeluarkan True-Positive di beberapa kesempatan epoch.
  2. Hasil itu cukup untuk menjadi evaluasi di masa mendatang dan analisis lebih lanjut mengenai American Sign Language ataupun penerapan Image Classification dalam topik Deep Learning (model CNN).
  3. Pengaplikasian model dalam dataset lain atau dataset yang serupa juga menjadi perhatian apakah model yang digunakan (dalam hal ini CNN; sequencial, keras(tensorflow), dan/atau best-model dalam Hyperparameter Tuning) benar-benar berhasil dalam konteks membangun model dalam main topic mempelajari bahasa isyarat (sign language).
  4. Secara keseluruhan, analisis yang dilakukan mencapai hasil yang cukup memuaskan.

112

113 of 114

113

Thank you!

114 of 114

Kontak Saya

Let's connect!