FINAL PROJECT
by Arsenal Team
ALUR KERJA PROJECT
03
02
Modelling
Get the insight from dataset
Preprocessing
01
Stage 1
Understand the dataset given
“Tidak ada bisnis yang dapat berkembang tanpa pelanggannya. Di sisi lain, pelanggan yang meninggalkan bisnis adalah mimpi buruk yang ditakuti oleh setiap pemilik bisnis. Faktanya, salah satu metrik kunci untuk mengukur kesuksesan bisnis adalah dengan mengukur tingkat churn pelanggannya - semakin rendah churn, semakin disukai perusahaan”
Problem Statement
Tingkat churn adalah metrik pemasaran yang menggambarkan jumlah pelanggan yang meninggalkan bisnis selama periode waktu tertentu. Setiap pengguna diberi nilai prediksi yang memperkirakan status churn mereka pada waktu tertentu
Data Description
Data Train memiliki 36992 baris and 25 kolom
Data test memiliki 19919 baris and 24 kolom
Train Data
Test Data
Column name Description
Merupakan nomor identifikasi unik pelanggan.
customer_id
Merupakan nama customer
Name
Merupakan umur customer
Age
Merupakan nomor security unik yang digunakan untuk mengidentifikasi seseorang
security_no
Mewakili wilayah tempat pelanggan berada.
region_category
Mewakili jenis langganan yang digunakan pelanggan
membership_ category
Column name Description
Merupakan tanggal ketika pelanggan menjadi anggota.
joining_date
Mewakili apakah pelanggan bergabung menggunakan kode referral atau ID
joined_through_referral
Mewakili referral ID
referral_id
Mewakili jenis penawaran yang disukai pelanggan
preferred_offer_types
Mewakili media operasi yang digunakan pelanggan untuk transaksi
medium_of_
operation
Column name Description
Mewakili jenis layanan internet yang digunakan pelanggan
internet_option
Menunjukkan terakhir kali pelanggan mengunjungi situs web
last_visit_time
Mewakili jumlah hari sejak pelanggan terakhir masuk ke situs web
days_since_last_login
Mewakili waktu rata-rata yang dihabiskan oleh pelanggan di situs web
avg_time_spent
Mewakili nilai transaksi rata-rata pelanggan
avg_transaction_value
Column name Description
Mewakili berapa kali pelanggan masuk ke situs web
avg_frequency_
login_days
Merupakan poin yang diberikan kepada pelanggan pada setiap transaksi
points_in_wallet
Mewakili apakah pelanggan lebih menyukai penawaran
offer_application_preference
Mewakili apakah pelanggan telah mengajukan keluhan
past_complaint
Mewakili feedback yang diberikan oleh pelanggan
feedback
Mewakili churn risk score dengan tingkatannya 1 sampai 5
churn_risk_score
In column churn_risk_score divide into 2 categories
churn_risk_score
-1
1, 2, 3, 4, 5
Artinya pelanggan tidak akan churn
Artinya pelanggan akan churn
Dengan jangkauan 1 sampai 5
Tips to reduce customer churn rate
Daripada meraba-raba dan membuat penawaran yang menarik mereka atau bahkan pelanggan baru, cobalah selesaikan masalah utama terlebih dahulu
Mintalah feedback pelanggan Anda, apa yang ingin Anda ubah untuk mendapatkan pengalaman yang lebih baik pada produk Anda.
Memfokuskan energi, biaya, dan waktu pada pelanggan setia yang terbukti!!
Source: glints.com
Stage 2
Get the insight from dataset
96,86%
Merupakan customer yang bersifat churn
sedangkan 3,14% sisanya merupakan yang tidak churn. Adanya ketidakseimbangan dalam persebaran data churn dan yang tidak churn sehingga jika dibuat model terjadi overfitting
Jumlah antar Tingkat Churn
Berdasarkan barplot tersebut bisa kita lihat bahwa tingkat 3, 4, dan 5 yang paling banyak proporsinya. Tingkat 3 yang paling banyak jumlahnya dengan 10424 customer.
Jumlah antar Jenis Feedback
Berdasarkan barplot tersebut jenis feedback yang paling banyak intensitasnya ada 5 yaitu, Poor Product Quality, No reason specified, Too many ads, Poor website, Poor CS. Poor Product Quality yang memiliki jumlah paling banyak di jenis feedback ini dengan jumlah 6350 customer
Jumlah antar Jenis Komplain
Berdasarkan barplot tersebut jenis komplain yang paling banyak intensitasnya yaitu Not Applicable dengan jumlah customer sebanyak 18602.
Jumlah antar Jenis Membership
Berdasarkan barplot tersebut jenis membership yang paling banyak intensitasnya yaitu Basic Membership dengan jumlah customer sebanyak 7724.
Jumlah antar Jenis Kelamin
Berdasarkan barplot tersebut jenis kelamin memiliki jumlah kurang lebih sama. Jumlah customer perempuan sebanyak 18490 dan jumlah customer laki-laki sebanyak 18443.
Jumlah antar Wilayah
Berdasarkan barplot tersebut wilayah yang memiliki persentase yang akan churn di wilayah Town dan yang paling sedikit di wilayah Village
Hubungan antara jenis feedback
dengan churn risk score
Jenis feedback yang paling banyak intensitasnya ada 5 yaitu, Poor Product Quality, No reason specified, Too many ads, Poor website, Poor CS. Berdasarkan barplot tersebut kelima jenis feedback tersebut memiliki churn risk score yang tinggi pula antara 3 sampai 5.
Hubungan antara jenis komplain
dengan churn risk score
Berdasarkan barplot tersebut, semua tingkatan churn risk score -1 sampai 5 ada di semua jenis komplain
Hubungan antara jenis membership
dengan churn risk score
Berdasarkan barplot tersebut, basic membership dan no membership yang memiliki kemungkinan terbesar akan churn dikarenakan churn risk score bernilai 5 sangat banyak di kedua jenis membership ini
Hubungan antara jenis Wilayah
dengan churn risk score
Berdasarkan barplot tersebut, hampir semua persentase distribusi atau proporsi data di setiap tingkatan churn merata di setiap wilayahnya
Hubungan antara jenis Komplain
dengan jenis membership
Berdasarkan barplot tersebut, yang paling menjadi perhatian utama adalah gold membership memiliki lebih banyak memiliki komplain di jenis not applicable daripada silver membership
Hubungan antara jenis feedback
dengan jenis membership
Berdasarkan barplot tersebut, basic membership dan no membership yang memiliki frekuensi yang cukup banyak di kelima jenis feedback yang sudah dibahas sebelumnya
Hubungan antara jenis Wilayah
dengan jenis membership
Berdasarkan barplot tersebut, distribusi jenis membership bisa dikatakan sama disetiap wilayah, yaitu di village, town, dan city
Stage 3
Preprocessing dataset
Melihat Anomali
Days since login
Avg time spent
Avg freg days login
Point in wallet
Melihat Nilai Negatif
Before
Melihat Nilai Negatif
After
Melihat Missing Value
Melihat Missing Value
Melihat Missing Value
Label Encouder
Before
Label Encouder
After
Hapus kolom yang tidak relevan
Customer_ID
Security_No
Name
Reffreal_id
Joining_date
Last_visit_time
Standarisasi
Before
Standarisasi
After
Stage 4
Modeling
Machine Learning
Model yang Dipilih
Random Forest
Decision Tree
VS
Random Forest
Decision
Tree
Akurasi sebelum Grid Search
78,86%
76,71%
Random Forest
Decision Tree
Akurasi setelah Grid Search
78,28%
78,46%
77,86%
76,71%
+0,54%
+2,29%
Random Forest
Decision Tree
Feature Importance
Random Forest
Decision Tree
Akurasi setelah Feature Importance
78,40%
78,58%
78,28%
78,46%
+0,15%
+0,12%
Random Forest
Decision Tree
Confusion Matrix
Prediksi dengan Data Test
DECISION TREE
Sebagai model yang lebih baik daripada Random Forest pada dataset tersebut dengan akurasi terbaik sebesar 78,56%
Our Team
He can even doing final project by himself! I have to re-read what he had written in the notebook
Wiranto Widotomo
“Guys, end-of-year is coming! Brace yourself *brb ambil snack dan beli kopi*
Riana Prameswari
It is good to know you, Mas Dede. See you in another great story learning uler piton.
Dede Rukmana