1
Final Project
Data Science
Oleh
Bulan Nurlaela
‹#›
Hello 👋🏻
Bulan Nurlaela
‹#›
No | Kompetensi |
1 | Mampu Membuat Data Frame Berupa Baris dan Kolom |
2 | Mampu Melakukan Analisis Data Menggunakan Measures of Central Tendency dan Measures of Variability |
3 | Mampu Melakukan Hingga Menganalisis Hasil Uji T-Test pada Python |
4 | Mampu Menerapkan Proses Exploratory Data Analysis (EDA) |
5 | Mampu Menerjemahkan Data Menjadi Visualisasi Data |
6 | Mampu Mengimplementasikan Machine Learning Model Menggunakan Algoritma Supervised atau Unsupervised Learning |
7 | Mampu Mengimplementasikan Deep Learning Model Menggunakan Algoritma Artificial Neural Networks (ANN) |
‹#›
|
Penutup |
Table of Content
01: Sales Force Training
6
Background Overview
Perusahaan X ingin meningkatkan penjualan mereka. Dari data penjualan sebelumnya menunjukkan bahwa penjualan rata-rata yaitu $100 per transaksi. Setelah melakukan training kepada pekerja sales, data penjualan terbaru (yang diambil dari 25 sampel pekerja sales) tersimpan dalam tabel data di bawah ini :
Transactions Amount | 100 | 150 | 50 | 100 | 130 | 120 | 100 | 85 | 70 | 150 |
150 | 120 | 50 | 100 | 100 | 140 | 90 | 150 | 50 | 90 | |
120 | 100 | 110 | 75 | 65 | | | | | |
Rumusan Masalah
Metode Analisis (Uji Statistika)
Scan kode di atas atau klik di sini
File Proyek
01: Sales Force Training
8
Flowchart
01: Sales Force Training
9
Data Preparation
Membuat DataFrame dari data transaksi perusahaan X
Mempersiapkan library
Melihat tampilan persebaran data secara acak
Menyimpan data menjadi file csv untuk dokumentasi
01: Sales Force Training
10
Analisa measure of Central Tendency:
Analisa Measure of Variability:
Data Understanding - Descriptive Statistics
01: Sales Force Training
11
Hypothesis Testing
Mendefinisikan Hypothesis yang dilakukan;
H0 = Penjualan rata-rata setelah training = $100
H1 = Penjualan rata-rata setelah pelatihan > $100
Aturan p-value dalam mengambil keputusan;
Aturan dari Test Statistic dan Critical Region ;
Data Understanding - Inferential Statistics
01: Sales Force Training
12
Keputusan
Ending - Conclusion
02: Housing Price
Background Overview
Dalam era informasi saat ini, banyaknya data yang tersedia mengenai properti, seperti ukuran, lokasi, dan kualitas bangunan, dapat memberikan wawasan yang berharga jika dianalisis dengan tepat. Data ini, ketika digabungkan dan dianalisis, dapat membantu dalam memahami dinamika pasar serta memberikan panduan bagi keputusan investasi. Penelitian sebelumnya menunjukkan bahwa variabel seperti lokasi dan ukuran tanah memainkan peran penting dalam menentukan harga properti, tetapi hubungan ini belum sepenuhnya dipahami.
Rumusan Masalah: Apa saja faktor-faktor yang mempengaruhi harga jual properti dalam dataset "Housing Price"?
Metode Analisis: Exploratory Data Analysis dan Transformasi Data (Log Transformation)
13
File Proyek
‹#›
02: Housing Price
15
Flowchart
02: Housing Price
16
Data Preparation
Mengimport library dan dataset yang akan digunakan. Dalam kasus ini, dataset Housing Price.
Data Understanding
Melihat tipe dan persebaran data
02: Housing Price
17
Terdapat 19 variabel yang memiliki NaN. 4 variabel di antaranya memiliki lebih dari 80% dataset adalah nilai NaN. Untuk itu, diperlukan untuk melihat persebaran nilai NaN yang ada, terutama PoolQC, MiscFeature, Alley dan Fence sebagai variabel penyumbang nilai NaN terbanyak dalam dataset.
Persebaran data pada variabel tertinggi yang memiliki nilai NaN: Bagaimana? Apakah columns yang memiliki peringkat nan tertinggi memang mencerminkan keadaannya? Apakah persebaran nilai nan dapat dilihat pada dataset (sebagaimana mestinya)?
Adapun persebaran missing value atau NaN yang sebenarnya dalam dataset:
Data Exploratory
Columns
02: Housing Price
18
Persentase baris yang ada (minimal 1) nilai NaN. Artinya,dalam dataset, setiap baris memiliki setidaknya satu kolom yang berisi nilai NaN dan tidak ada baris yang sepenuhnya bebas dari nilai NaN
Analisa:
Perbandingan rows yang memiliki setidaknya satu nilai nan.
Perbandingan columns yang memiliki setidaknya satu nilai nan.
02: Housing Price
19
Dataset bersih yang dimiliki; variabel house_dropnan
Memisahkan dataset menjadi kategorikal dan numerikal variabel
Menyimpan variabel numerik dan kategorik sebagai dataset csv dan backup dokumentasi
02: Housing Price
20
Analisa:
Rumusan masalah:
Insight:
Properti dengan kategori AllPub lebih bernilai karena menyediakan fasilitas lengkap yang lebih diminati pasar, sementara properti dengan NoSeWa jarang ada karena tidak memenuhi standar kenyamanan pembeli.
02: Housing Price
21
Analisis:
Rumusan Masalah:
Insight:
Pasar lebih memilih 1Story dan 2Story karena praktis. Gaya lain kurang diminati, mencerminkan preferensi desain umum. Ketidakseimbangan ini dapat berdampak pada harga, dengan 1Story dan 2Story, lebih kompetitif.
02: Housing Price
22
Analisis
Rumusan Masalah:
Insight:
Mayoritas properti memiliki kualitas eksterior rata-rata, dengan sedikit yang mencapai Excellent. Pasar cenderung fokus pada standar umum, dengan kesenjangan signifikan antara properti berkualitas rata-rata dan yang lebih tinggi.
02: Housing Price
23
Analisis:
Rumusan Masalah:
Insight:
Mayoritas pembeli adalah kelas menengah yang mencari rumah terjangkau, sesuai tren permintaan pada harga rendah. Properti mahal memiliki penjualan rendah, mungkin terkait daya beli terbatas.
02: Housing Price
24
Analisis:
Rumusan Masalah:
Insight:
Mayoritas properti kecil dengan beberapa besar mencerminkan segmentasi pasar menurut kelas sosial. Variasi ukuran GrLivArea mempengaruhi harga, di mana properti besar menarik segmen kaya dan properti kecil lebih diminati oleh pembeli anggaran terbatas. Distribusi yang tidak seimbang menunjukkan perlunya analisis mendalam tentang dinamika pasar.
02: Housing Price
25
Analisis:
Rumusan Masalah:
Insight:
Mayoritas properti memiliki kolam kecil, sementara kolam besar merupakan outlier, menunjukkan segmentasi pasar antara kelas menengah dan atas.
Karena memiliki banyak data yang bernilai 0, maka nilai 0 padabvariabel PoolArea harus di filter terlebih dahulu.
02: Housing Price
26
Analisis:
Rumusan Masalah:
Insight:
Ukuran garasi yang besar berkontribusi pada nilai jual properti yang lebih tinggi, menarik segmen kaya yang membutuhkan ruang lebih besar. Properti kecil lebih diminati oleh pembeli dengan anggaran terbatas, mencerminkan segmentasi pasar yang dipengaruhi oleh status ekonomi. Hal tersebut juga sejalan dengan hukum permintaan dan penawaran pada variabel SalePrice (Harga rumah)
* Sama seperti PoolArea, variabel GarageArea juga memiliki nilai 0. Karena itu harus difilter (pada saat data cleaning)
02: Housing Price
27
Sejauh ini ….
Keempat variabel memperlihatkan ketidakseimbangan distribusi, dengan mayoritas properti berukuran kecil dan terjangkau, namun terdapat properti dengan ukuran besar atau luas (mewah) sebagai outlier. Ketidakseimbangan ini menggambarkan segmentasi pasar berdasarkan kelas sosial dan preferensi, memberikan panduan bagi analisis harga dan korelasi antar variabel properti lebih lanjut.
02: Housing Price
28
Pemrosesan variabel numerik
Analisis:
Rumusan Masalah:
Insight:
Transformasi log10 berhasil menyeimbangkan distribusi harga, membuat analisis lebih akurat dengan mengurangi dampak outlier pada harga properti.r
02: Housing Price
29
Pemrosesan variabel numerik
Analisis:
Rumusan Masalah:
Insight:
Transformasi log10 membantu menormalkan distribusi, mempermudah analisis dan prediksi. Pola distribusi lebih jelas, mendukung pengambilan keputusan yang lebih baik.
02: Housing Price
30
Pemrosesan variabel numerik
Analisis:
Rumusan Masalah:
Insight:
Transformasi log10 membuat distribusi lebih normal dan analisis lebih akurat. Variasi kecil dalam ukuran kolam menunjukkan keseragaman di sebagian besar properti, sementara outlier mencerminkan segmentasi berdasarkan fasilitas.
02: Housing Price
31
Pemrosesan variabel numerik
Analisis:
Rumusan Masalah:
Insight:
Transformasi log10 menormalkan distribusi GarageArea, meningkatkan akurasi analisis. Ukuran garasi yang lebih konsisten mencerminkan kesamaan dalam kelas properti, sedangkan outlier mencerminkan preferensi yang lebih tinggi atau fasilitas tambahan.
02: Housing Price
32
Analisis:
Rumusan Masalah:
Insight:
Rumah dengan luas lebih besar cenderung memiliki harga lebih tinggi. Perlu mempertimbangkan faktor lain untuk analisis yang lebih akurat, menambah variabel seperti lokasi dapat meningkatkan prediksi harga.
02: Housing Price
33
Analisis:
Rumusan Masalah:
Insight:
Ukuran garasi yang lebih besar berkaitan dengan harga rumah lebih tinggi, tetapi korelasi sedang dan adanya outlier menunjukkan pentingnya mempertimbangkan variabel lain dalam analisis.
02: Housing Price
34
Hypothesis berdasarkan p-value dan alpha
Confidence Level | Significance Level (alpha) | p-value | |
GrLivArea & SalePrice | GarageArea & SalePrice | ||
95% | 0.05 | 4.518033646776417e-223 | 2.0850476172658775e-140 |
Hypothesis Testing
Mendefinisikan Hypothesis akan yang dilakukan;
H0 = Tidak ada hubungan yang signifikan.
H1 = Terdapat hubungan yang signifikan antar variabel.
Aturan p-value dalam mengambil keputusan;
GrLivArea & SalePrice:
p-value > significance level; tolak hypothesis null
GarageArea & SalePrice:
p-value > significance level; tolak hypothesis null
02: Housing Price
35
Hypothesis berdasarkan p-value dan alpha
Adapun pertimbangan lainnya:
Correlation Between | GrLivArea & SalePrice | GarageArena & SalePric |
0.7086244776126522 | 0.6084052829168348 |
Analisis:
Rumusan Masalah:
Insight:
Korelasi positif antara GrLivArea, GarageArea, dan SalePrice mengindikasikan bahwa ukuran area bangunan dan garasi berperan dalam penentuan harga. Namun, korelasi yang belum sangat kuat menunjukkan bahwa faktor lain, seperti lokasi atau fasilitas tambahan, mungkin juga signifikan dalam memengaruhi harga rumah.
02: Housing Price
36
Conclusion
End
02: Machine Learning
Background Overview
Proyek ini bertujuan untuk menganalisis preferensi pengguna terhadap anime menggunakan dataset yang berisi informasi rating dari 73.516 pengguna pada 12.294 judul anime. Dataset ini memberikan wawasan tentang bagaimana pengguna menilai dan memilih anime yang telah mereka tonton.
Rumusan Masalah: Apa faktor-faktor yang memengaruhi rating yang diberikan oleh pengguna?
Metode Analisis: Exploratory Data Analysis, Recommender System (Analisis Korelasi Collaborative filtering (item based), Content Based Filtering
Struktur Dataset
37
Scan kode di atas atau klik di sini
File Proyek
‹#›
03: Machine Learning
39
Flowchart
40
Data Preparation
03: Machine Learning
41
Penjelasan:
Palette1 digunakan untuk menyimpan paket warna yang konsisten sepanjang analisis pada Anime Study Case, sehingga visualisasi data menjadi lebih mudah dibaca dan menambah nilai estetik.
42
Data Understanding
03: Machine Learning
43
anime.csv | anime_id | rating | members |
Count | 12294 | 12064 | 12294 |
Mean | 14058.22 | 6.47 | 18071.34 |
Std | 11455.29 | 1.03 | 54820.68 |
Min | 1 | 1.67 | 5 |
25% | 3484.25 | 5.88 | 225 |
50% | 10260.5 | 6.57 | 1550 |
75% | 24794.5 | 7.18 | 9437 |
Max | 34527 | 10 | 1013917 |
Analisis:
Anime statistical information
03: Machine Learning
44
rating.csv | user_id | anime_id | rating |
Count | 7813737 | 7813737 | 7813737 |
Mean | 36727.96 | 8909.07 | 6.14 |
Std | 20997.95 | 8883.95 | 3.73 |
Min | 1 | 1 | -1 |
25% | 18974 | 1240 | 6 |
50% | 36791 | 6213 | 7 |
75% | 54757 | 14093 | 9 |
Max | 73516 | 34519 | 10 |
Analisis:
Rating statistical information
03: Machine Learning
45
Missing value
anime.csv | Total | Percent |
rating | 230 | 0.018708 |
genre | 62 | 0.005043 |
type | 25 | 0.002034 |
name | 0 | 0 |
anime_id | 0 | 0 |
episodes | 0 | 0 |
members | 0 | 0 |
rating.csv | Total | Percent |
user_id | 0 | 0 |
anime_id | 0 | 0 |
rating | 0 | 0 |
Analisis:
Tidak ada missing value dari dataset anime. Namun terdapat nilai rating negatif, yang perlu diperiksa lebih lanjut untuk memastikan kualitas data.
Analisis:
Rata-rata rating pengguna adalah 6.14 dengan standar deviasi 3.73, menunjukkan variasi signifikan, termasuk rating negatif (-1) yang mungkin akibat kesalahan input. Dengan lebih dari 7,8 juta entri, banyak pengguna memberikan penilaian pada anime yang sama, dengan rata-rata 8,909.07 anime yang dinilai per pengguna.
46
Data Eksploratory
03: Machine Learning
47
Missing value
Dari hasil sebelumnya, ditemukan bahwa hanya tiga variabel dalam dataset anime, yaitu rating, genre, dan type, yang memiliki nilai kosong atau NaN. Oleh karena itu, persebaran nilai NaN pada ketiga variabel ini akan ditinjau lebih lanjut. Untuk tahap ini, keberadaan missing value akan dieksplorasi menggunakan 3 sampel data yang diambil dari 20 baris pertama, 20 baris terakhir, dan 20 baris secara acak. Langkah ini bertujuan untuk mendapatkan gambaran yang lebih jelas—apakah persentase missing value sesuai dengan kondisi sebenarnya atau tidak.
20 baris (missing value) pertama, atau head
03: Machine Learning
48
20 baris (missing value) terakhir, atau tail
20 baris (missing value) acak, atau sample
03: Machine Learning
49
Analisa:
Rumusan Masalah:
Insight:
03: Machine Learning
50
Sample lain:
Mengambil 5 sample tambahan dari baris yang memiliki nilai NaN.
Pada sample kali ini, variabel genre lah yang justru menjadi penyumbang utama nilai NaN-nya. Hal ini sesuai dengan persebaran missing value yang telah dijalankan sebelumnya.
03: Machine Learning
51
Analisis:
Rumusan Masalah:
Langkah apa yang dapat dilakukan untuk menangani missing value dalam variabel genre dan meningkatkan kualitas data?
Insight:
03: Machine Learning
52
Adapun penanganan missing value yang diambil dengan menggunakan imputation;
Termasuk ke dalam kategorikal variabel, karena itu missing value atau nan harus diimputasi dengan kategori baru untuk menggantikan informasi yang tidak tercatat.
Untuk mempertahankan distribusi data tanpa kehilangan informasi yang penting.
03: Machine Learning
53
Setelah dilakukan imputation:
03: Machine Learning
54
Duplicated Value
Terdapat duplicated value/data dalam dataset anime
Shape/ukuran dari dataset rating
Bebas dari data yang duplikat
Mengecek keberadaan data yang duplikat
03: Machine Learning
55
Ukuran setelah drop duplicated
Drop/menghapus (salah satu) data yang duplikat
Data yang duplikat
Mengecek jumlah duplikasi dalam dataset duplicated value (rating)
03: Machine Learning
56
Menggabungkan kedua dataset (anime dan rating) untuk memperoleh satu dataset yang komprehensif dan dapat dilakukan dalam satu frame
Hasil penggabungan disimpan dalam format csv untuk memudahkan penggunaan ulang dan sinkronisasi file
Mulai menggunakan fulldata untuk proses analisis
03: Machine Learning
57
Memisahkan data menjadi numerical dan categorical
data | |
categorical_data | numerical_data |
name | anime_id |
genre | rating |
type | members |
episodes | user_id |
| rating_user |
Data lengkap dari dataset anime dan rating yang sebelumnya telah digabungkan, dipisahkan menjadi dua variabel ‘categorical_data’ dan ‘numerical_data’— berdasarkan tipe datanya.
03: Machine Learning
58
Categorical variabel - name
03: Machine Learning
59
Categorical variabel - name
Analisis:
Rumusan Masalah:
Insight:
03: Machine Learning
Categorical variabel - genre
Memisahkan genre kemudian mencari 10 genre teratas berdasarkan rating
*tidak atau bukan dari keseluruhan genre yang ada, melainkan hanya (dapat) menampilkan 20 baris pertamanya saja.
03: Machine Learning
Analisis:
Rumusan Masalah:
Apakah ada pola atau karakteristik dalam genre dengan rating tinggi yang dapat dijadikan panduan dalam produksi konten baru?
Insight:
03: Machine Learning
62
Analisis:
Rumusan Masalah
Apa langkah yang perlu diambil untuk menangani masalah ini?
Insight
Ketidakseimbangan dalam data dapat membuat ketidakakuratan dalam analisis. Oleh karena itu, tindakan yang perlu diambil termasuk melakukan transformasi data untuk memastikan analisis yang lebih akurat dan representatif.
Categorical variabel - type
03: Machine Learning
63
Analisis:
Rumusan Masalah:
Apa langkah yang perlu diambil untuk menangani masalah ini?
Insight:
Ketidakseimbangan dalam data dapat membuat ketidakakuratan dalam analisis. Oleh karena itu, tindakan yang perlu diambil termasuk melakukan transformasi data untuk memastikan analisis yang lebih akurat dan representatif.
03: Machine Learning
64
Categorical variabel - episodes
Analisis:
Anime dengan 1 episode menempati posisi teratas dalam rating (9.50 dan 9.37), menunjukkan bahwa film atau OVA berdurasi singkat sering kali mendapatkan apresiasi tinggi. Meskipun anime dengan jumlah episode lebih banyak umumnya memiliki rating sedikit lebih rendah, rating tersebut tetap tinggi, seperti pada anime dengan 64, 51, dan 24 episode.
Rumusan Masalah
1. Apakah jumlah episode berpengaruh pada rating anime?
2. Mengapa anime berdurasi pendek lebih sering mendapatkan rating tinggi?
3. Apakah tantangan dalam menjaga kualitas memengaruhi rating anime panjang?
Insight
Anime singkat cenderung disukai, mungkin karena cerita yang lebih padat dan kualitas terjaga. Anime berseri atau dengan banyak episode mendapatkan rating tinggi karena alur cerita yang berkembang dan keterikatan emosional penonton dengan karakter. Namun tidak selalu dapat dijadikan patokan.
03: Machine Learning
65
Numerical variabel - anime_id
YAnalisis
Rumusan Masalah
Insight
Distribusi anime_id menunjukkan variasi yang luas, dengan median lebih rendah dari mean. Hal ini mengindikasikan beberapa anime memiliki anime_id yang jauh lebih tinggi dari lainnya, menunjukkan kemungkinan adanya kategori atau jenis anime yang bertambah pesat di tahun-tahun terakhir.
03: Machine Learning
66
Analisis:
Distribusi rating anime menunjukkan rata-rata rating sebesar 7.65, dengan median yang hampir sama, yaitu 7.68. Ini menunjukkan bahwa sebagian besar anime memiliki rating yang baik, dengan sedikit penyimpangan dari rata-rata.
Rumusan Masalah:
Insight:
Sebagian besar anime mendapatkan rating yang baik, menunjukkan bahwa penonton cenderung memberikan nilai positif. Rating yang stabil dan tidak terlalu berfluktuasi menandakan kualitas produksi yang konsisten dalam industri anime.
Numerical variabel - rating
03: Machine Learning
67
Analisis;
Distribusi jumlah anggota anime menunjukkan rata-rata sekitar 178,620 dengan median 110,470. Standar deviasi yang tinggi (188,176) menunjukkan adanya variasi besar dalam jumlah anggota, yang berarti beberapa anime memiliki pengikut yang sangat banyak, sementara yang lain memiliki jumlah anggota yang jauh lebih sedikit.
Rumusan Masalah:
Insight:
Jumlah anggota yang tinggi mencerminkan popularitas anime, sementara variasi menunjukkan bahwa beberapa anime memiliki komunitas yang lebih solid. Anime dengan anggota rendah berpotensi untuk tumbuh jika strategi pemasaran dan promosi yang tepat diterapkan.
Numerical variabel - members
03: Machine Learning
68
Numerical variabel - user_id
Analisis:
Rumusan Masalah:
Insight:
Distribusi user_id yang merata menunjukkan bahwa banyak pengguna berada di sekitar nilai rata-rata, dengan sebagian kecil yang sangat aktif, menunjukkan potensi untuk mendorong lebih banyak keterlibatan dari pengguna yang kurang aktif.
03: Machine Learning
69
Analisis
Rumusan Masalah
Insight
Sebagian besar pengguna memberikan rating mendekati rata-rata, namun terdapat variasi yang luas. Untuk mendorong konsistensi dalam penilaian, mungkin diperlukan mekanisme evaluasi yang lebih terstruktur atau rekomendasi berbasis preferensi.
Numerical variabel - rating_user
70
Modelling
03: Machine Learning
71
03: Machine Learning
72
Data Preparation
Data Cleaning: Membersihkan data dari simbol dan kode html yang tidak relevan dan dapat mengganggu proses modelling kedepannya.
Data Transformation: mengkonversi data ke dalam bentuk matriks user-item menggunakan metode pivot table (yang lebih mudah diolah oleh model machine learning) untuk tahapan collaborative filtering.
03: Machine Learning
73
Sparse Matrix Conversion: Mengkonversi matriks user-item yang dalam bentuk pivot memiliki banyak nilai 0 menjadi sparse format, yang secara efisien mengoptimalkan penyimpanan data (user-item matrix) dengan menyimpan hanya nilai non-nol untuk menghemat memori.
Define Model: Menggunakan KKN models (NearestNeighbors) sebagai model dasar yang menghitung kemiripan antar pengguna atau item.
03: Machine Learning
74
Collaborative filtering, adalah pendekatan berbasis kesamaan antara pengguna atau item. Di sini, recommended systems bekerja dengan menganalisis pola interaksi pengguna sebelumnya terhadap item (dalam hal ini, anime). Pada contoh ini, sistem menggunakan pendekatan item-based collaborative filtering dengan mengukur kedekatan (similarity) antara anime yang telah dinilai oleh pengguna.
03: Machine Learning
75
Model Querying: Mendefinisikan variabel query_no untuk memilih index anime secara acak (random) berdasarkan table data_pivot, di sini yang terpilih adalah anime Sousei no Aquarion OVA. Anime tersebut yang akan menjadi dasar (query) untuk memberikan rekomendasi anime serupa kepada oengguna.
Finding Nearest Neighbors: Mengidentifikasi 10 anime yang paling mirip berdasarkan hasil query_no, yaitu Sousei no Aquarion OVA, dengan menggunakan model yang sudah dilatih sebelumnya berdasarkan nilai kesamaan (cosine similarity).
03: Machine Learning
76
Result Extraction: Hasil dari KKN diproses untuk mendapatkan nama, jarak(distance) dari tiap anime yang direkomendasikan berdasarkan indeks tetangga yang ditemukan.
Recommendation Output: Hasil rekomendasi diformat dalam bentuk dataframe yang rapih dan terstruktur dan yang akan ditampilkan kepada pengguna.
03: Machine Learning
77
No. | Anime | Rating |
1 | Kuroko no Basket: Saikou no Present Desu | 8.340.000 |
2 | Last Exile: Ginyoku no Fam Recaps | 6.560.000 |
3 | One Piece: Oounabara ni Hirake! Dekkai Dekkai Chichi no Yume! | 7.430.000 |
4 | Kuroko no Basket: Mou Ikkai Yarimasen ka | 7.860.000 |
5 | One Piece: Taose! Kaizoku Ganzack | 6.870.000 |
6 | Afro Samurai Pilot | 6.790.000 |
7 | Asobi ni Iku yo!: Asobi ni Oide - Owari | 6.450.000 |
8 | Acchi Kocchi (TV): Place=Princess | 7.620.000 |
9 | One Piece: Mamore! Saigo no Dai Butai | 7.490.000 |
Recommendasi anime untuk penggemar Sousei no Aquarion OVA adalah:
03: Machine Learning
78
Content Based filtering, merekomendasikan item berdasarkan karakteristik konten dari item yang sudah disukai pengguna. Algoritma ini menganalisis fitur atau atribut dari item (misalnya, genre dalam film atau jenis produk) dan mencoba mencocokkan dengan item lain yang memiliki karakteristik serupa.
03: Machine Learning
79
Checked Memory: Memastikan pengolahan data memiliki memory yang cukup dan sesuai.
Data Preparation: Memastikan data yang sebelumnya dibersihkan untuk menghindari duplikasi dan variabel genre siap di vektorisasi, yakni memecah genre menjadi format text (yang bisa diolah sebagai feature recommendation).
03: Machine Learning
80
Text Vectorization: membuat representasi vektor dari genre setiap anime. Langkah ini menyiapkan data berbasis teks (yang sebelumnya dilakukan) agar bisa diukur kemiripannya.
Similarity Computation: Menghitung kesamaan antar anime berdasarkan genre yang sebelumnya diolah menggunakan sigmoid kernel, menciptakan similarity matrix.
03: Machine Learning
81
Model Extraction: Mengidentifikasi indeks anime berdasarkan judul yang diberikan pengguna. Indeks ini kemudian diproses untuk menghasilkan rekomendasi dengan mengurutkan anime yang paling mirip dari yang tertinggi. Singkatnya, rekomendasi yang ditampilkan kepada pengguna adalah anime teratas yang memiliki kesamaan paling kuat dengan pilihan pengguna.
Fungsi yang didefinisikan untuk menampilkan hasil rekomendasi kepada pengguna, yakni fungsi rekomendasikan.
03: Machine Learning
82
Analisis:
Noragami memiliki rating sebesar 8.17 dan dikenal dengan tema supernatural serta aksi.
Rekomendasi yang diberikan:
Anime seperti"Bleach Movie 2: The DiamondDust Rebellion" dan "Yuu☆Yuu☆Hakusho: Eizou Hakusho" memiliki unsur supernatural dan aksi, yang konsisten dengan tema Noragami. Judul seperti "Gensoumaden Saiyuuki Movie" dan "JoJo no Kimyou na Bouken" memiliki latar yang penuh petualangan dan aksi, mencerminkan preferensi yang serupa.
Insight:
Sistem berhasil memberikan rekomendasi anime dengan genre yang sesuai dan rating yang mirip, walaupun ada beberapa judul dengan rating yang rendah seperti "Tokyo Juushouden" yang mungkin kurang populer namun memiliki tema yang sama.
03: Machine Learning
83
Analisis:
Naruto, dengan rating 7.81, adalah anime aksi petualangan yang terkenal dengan kisah persahabatan, perjuangan, dan tema ninja.
Rekomendasi yang diberikan:
Sebagian besar rekomendasi seperti "Boruto: Naruto the Movie - Naruto ga Hokage ni" dan "Naruto: Shippuuden Movie 4 - The Lost Tower" adalah bagian dari franchise Naruto itu sendiri, menampilkan cerita tambahan (atau lain) yang melanjutkan tema utama. Selain itu, ada beberapa judul seperti "Battle Spirits: Ryuuko no Ken" yang mungkin tidak berhubungan langsung dengan cerita utama Naruto, tetapi memiliki aksi yang mirip dan sering kali terkait dengan petualangan epik.
Insight:
Sistem berhasil memberikan beberapa judul yang berada dalam universe Naruto sendiri, memperkuat keterkaitan cerita, namun juga menawarkan variasi dengan judul seperti "Kyutai Panic Adventure!" dan "Ranma ½," yang meskipun beraksi, mungkin berbeda dalam gaya humor atau latar.
03: Machine Learning
84
Analisis:
Doraemon adalah anime klasik dengan rating 7.49, dikenal dengan genre komedi dan fiksi ilmiah serta berfokus pada petualangan dengan alat-alat canggih..
Rekomendasi yang diberikan:
Sebagian besar rekomendasi, seperti "Doraemon Movie 28: Nobita to Midori no Kyojin Den" dan "Doraemon Movie 33: Nobita no Himitsu Dougu Museum," adalah bagian dari film-film Doraemon, yang mempertahankan fokus pada tema komedi ringan dan petualangan berbasis teknologi. Judul-judul film ini juga memiliki rating yang cukup konsisten, berkisar di sekitar 7.3 hingga 7.5, menunjukkan kesamaan dalam penerimaan penonton.
Insight:
Sistem memberikan rekomendasi yang sangat relevan, dengan fokus pada film-film Doraemon yang menampilkan petualangan baru namun mempertahankan daya tarik fiksi ilmiah ringan yang menjadi ciri khas Doraemon.
03: Machine Learning
85
Conclusion
Background Overview
American Sign Language (ASL) adalah bahasa visual yang digunakan oleh komunitas tunarungu dan individu dengan gangguan pendengaran di Amerika Utara. Bahasa ini memiliki tata bahasa yang khas, memadukan gerakan tangan, ekspresi wajah, dan gerakan tubuh untuk menyampaikan makna. ASL bukan hanya digunakan untuk mengeja huruf atau angka, tetapi juga untuk mengekspresikan ide, perasaan, dan konsep yang lebih kompleks. Sebagai bahasa yang kaya dan beragam, ASL berbeda dari bahasa lisan yang lebih umum digunakan.
Rumusan Masalah: Bagaimana model deep learning dapat mempelajari dan mengenali pose tangan dalam ASL?
Metode Analisis: Analisis Citra dengan Klasifikasi Gambar menggunakan model CNN(Sequencial, Keras(tensorflow), dan/atau hyperparameter tuning)
04: Deep learning / Artificial Neural Network
ASL
Scan kode di atas atau klik di sini
File Proyek
‹#›
04: Deep learning / Artificial Neural Network
88
Flowchart
Data Preparation
04: Deep learning / Artificial Neural Network
ASL
04: Deep learning / Artificial Neural Network
90
Yang akan dipakai pada kasus kali ini:
04: Deep learning / Artificial Neural Network
91
Data Preparation
Penjelasan:
04: Deep learning / Artificial Neural Network
92
Palette1 digunakan untuk menyimpan paket warna yang konsisten sepanjang analisis pada Anime Study Case, sehingga visualisasi data menjadi lebih mudah dibaca dan menambah nilai estetik.
General Information about dataset train dan test, dari hasil yang dikeluarkan diketahui bahwa keduanya terdapat 784 kolom yang berisi data piksel, mulai dari piksel0 hingga piksel784. Kemudian, dengan anggapan bahwa gambar memiliki sisi yang sama (persegi), maka √784 = 28. Yang artinya gambar memiliki ukuran dimensi 28×28 piksel atau standar ukuran untuk MNIST dataset.
Data Understanding
04: Deep learning / Artificial Neural Network
ASL
04: Deep learning / Artificial Neural Network
94
5 baris pertama (secara default) untuk dataset train
5 baris pertama (secara default) untuk dataset test.
04: Deep learning / Artificial Neural Network
95
5 baris terakhir (secara default) untuk dataset train
5 baris terakhir (secara default) untuk dataset test.
Data Eksploratory
04: Deep learning / Artificial Neural Network
ASL
04: Deep learning / Artificial Neural Network
97
Mengambil semua nilai dari kolom label pada dataset train kemudian menyimpannya dalam varisbel labels untuk diubah menjadi bentuk numpy array agar lebih efisien untuk premosesan data numerik.
Mengambil nilai unik dari variabel labels yang sebelumnya didefinisikan
04: Deep learning / Artificial Neural Network
98
Analisa:
Distribusi data dapat dikatakan mendekati normal. Dalam hal ini, terdapat 24 label yang mewakili masing-masing huruf yang ada pada American Sign Language, terkecuali huruf J dan Z.
Tidak adanya kelas yang sangat dominan atau sangat minoritas menunjukkan dataset ini cukup seimbang, yang baik untuk performa model.
Modelling
04: Deep learning / Artificial Neural Network
ASL
04: Deep learning / Artificial Neural Network
100
Label separation from dataset
Label Binarization (One-hot Encoding)
Image Data Conversion and Normalization
04: Deep learning / Artificial Neural Network
101
Augmentation
Overview Image Result
04: Deep learning / Artificial Neural Network
102
Define Model; sequencial
Output Layer of models
04: Deep learning / Artificial Neural Network
103
Analisa:
Insight:
Meskipun model mencapai akurasi 100% pada data uji, analisis lebih lanjut diperlukan untuk memastikan bahwa model tidak overfit dan mampu beradaptasi dengan data baru.
Hasil Uji Akurasi
04: Deep learning / Artificial Neural Network
104
Mendefinisikan Hyperparameter Tuning - menggunakan random search
04: Deep learning / Artificial Neural Network
105
Prediksi yang benar (True Predictions)
Prediksi yang salah (False Predictions)
Visualisasi Hasil Prediksi Model CNN pada Data Uji (x_test)
True Positive
False Positive
*False Negative (FN) dan True Negative (TN) tidak teridentifikasi dalam gambar ini karena seluruh prediksi berkaitan dengan kelas positif
Evaluation
04: Deep learning / Artificial Neural Network
ASL
04: Deep learning / Artificial Neural Network
107
Sebagian prediksi kelas R salah, model kesulitan dalam mengklasifikasikan banyak contoh kelas R yang ada.
Memiliki ketepatan 98% dalam memprediksi kelas L, model berhasil dalam seluruh data positif dan memiliki rata-rata harmonis (gambaran keseimbangan model)
Rentang kelas (A - E) di mana model mengenali dengan sangat baik kelas-kelas tersebut.
Rentang kelas (Q - U) di mana model menunjukkan kesulitan dalam mengenali atau membedakan kelas-kelas tersebut.
04: Deep learning / Artificial Neural Network
108
Analisis Table Classification Report:
Rumusan masalah:
Insight:
Akurasi keseluruhan yang baik, namun perlu fokus pada kelas-kelas dengan performa rendah: Model memiliki akurasi tinggi pada beberapa kelas, namun masih kesulitan pada beberapa kelas lainnya, yang mungkin memerlukan peningkatan dari segi data atau arsitektur model.
04: Deep learning / Artificial Neural Network
109
Analisis:
Insight:
Dari grafik loss dan accuracy, kita dapat menyimpulkan bahwa model ini menunjukkan performa yang sangat baik pada data latih dan validasi, namun performa yang sempurna ini dapat mengindikasikan adanya risiko overfitting. Oleh karena itu, evaluasi tambahan dengan data uji dan penerapan teknik regularisasi sangat disarankan untuk memastikan model mampu menggeneralisasi dengan baik pada data yang baru.
04: Deep learning / Artificial Neural Network
110
Analisis:
Sejauh ini, jika ….
111
Model bagus … memiliki akurasi yang tinggi dan juga dapat mengidentifikasi True Positives dengan baik, di mana model memprediksi kelas yang benar (misalnya, gambar tangan untuk huruf tertentu dalam bahasa isyarat) dan itu benar-benar sesuai dengan label yang sebenarnya. Meskipun mungkin masih ada beberapa kesalahan. Hal ini menunjukkan bahwa model sudah cukup baik dan bisa diandalkan untuk sebagian besar prediksi.
Model kurang bagus … sering terjadi kesalahan pada kelas tertentu, maka model perlu diperbaiki, misalnya dengan tuning atau peningkatan data.
Conclusion
112
113
Thank you!