1 of 15

Sistem Prediksi Pelanggan Churn dan Rekomendasi

Data Science Challenge

2 of 15

Tim Bapak-bapak

2

Alfian Hakim

Alief Dany Seventri

Alif Rizal Maulana

Data Analyst - Sharing Vision�Universitas Brawijaya�(2019-2023)

Web Developer - CV Noto Putra�Universitas Brawijaya (2019-sekarang)

Management Trainee - BRI�Universitas Brawijaya�(2019-2023)

3 of 15

Introduction

3

SEGMENTASI PELANGGAN

  • Problem/Opportunity: Karakteristik pelanggan dapat digali lebih lanjut dengan segmentasi
  • Solution: Segmentasi pelanggan dengan Clustering

PREDIKSI CHURN

  • Problem/Opportunity: Sekitar 26,5% pelanggan meninggalkan perusahaan
  • Solution: Sistem prediksi churn dengan model machine learning sebagai upaya pencegahan

REKOMENDASI PRODUK

  • Problem/Opportunity: Semakin banyak jumlah produk digunakan, semakin banyak pendapatan
  • Solution: Sistem rekomendasi produk kepada pelanggan sebagai upaya penambahan pendapatan

4 of 15

Data

4

  1. Deskripsi: Penggunaan layanan perusahaan telekomunikasi oleh pelanggan di Q3 pada suatu tahun tertentu
  2. Jumlah Baris: 7043 Kolom Data
  3. Jumlah Kolom: 16 Kolom
  4. Sumber: Kaggle
  5. Kolom: Customer ID, Tenure Months, Location, Device Class, Games Product, Music Product, Education Product, Call Center, Video Product, Use MyApp, Payment Method, Monthly Purchase, Churn Label, Longitude, Latitude and CLTV

5 of 15

Methodology

5

6 of 15

EDA & Clustering

Result

6

RINGKASAN EDA

  • Rata-rata tenor pelanggan sekitar 9 bulan - 4 tahunan
  • Perangkat yang paling jarang digunakan berasal dari kelas Low End, dan pengguna perangkat ini sudah pasti tidak menggunakan internet
  • Produk yang paling banyak digunakan adalah Video
  • Mayoritas menggunakan 1 atau 2 produk saja

RINGKASAN CLUSTERING

  • Algoritma K-Means
  • Klaster optimal di 3 klaster

#1

Tidak Loyal

#2

Loyal

#3

No Internet

  • Tenor singkat
  • Banyak churn
  • Sedikit produk digunakan
  • Tenor lama
  • Sedikit churn
  • Banyak produk digunakan
  • Low end device
  • Pembayaran bulanan rendah

7 of 15

Persiapan Pemodelan

Result | Klasifikasi Churn

7

75

Training

25

Testing

RASIO

PENANGAN IMBALANCED

  • Threshold shifting
  • Oversampling
  • Undersampling

ALGORITMA

  • Logistic Regression
  • Random Forest
  • SVM
  • KNN
  • Naive Bayes

FITUR AWAL

  • Tenor
  • Pembayaran bulanan
  • CLTV
  • Kelas perangkat
  • Penggunaan produk (Game, Musik, Edukasi, Video)
  • Penggunaan MyApp
  • Penggunaan call center
  • Metode pembayaran

SELEKSI FITUR

  • Tenor
  • Grup CLTV
  • Kelas perangkat
  • Penggunaan produk Game
  • Penggunaan call center
  • Metode pembayaran (pulsa atau bukan)

8 of 15

Pemodelan

Result | Klasifikasi Churn

8

Logistic Regression

Random Forest

SVM

KNN

Naive Bayes

F1-Score (Threshold Shifting)

0.61

0.56

0.60

0.52

0.60

F1-Score (Oversampling)

0.60

0.54

0.61

0.55

0.59

F1-Score (Undersampling)

0.60

0.57

0.59

0.55

0.59

Logistic Regression

Random Forest

SVM

KNN

Naive Bayes

F1-Score (Threshold Shifting)

0.61

0.55

0.61

0.51

0.60

F1-Score (Oversampling)

0.61

0.55

0.59

0.51

0.60

F1-Score (Undersampling)

0.61

0.56

0.59

0.53

0.60

SEBELUM SELEKSI FITUR

SETELAH SELEKSI FITUR

MODEL AKHIR

  • Logistic Regression
  • Threshold Shifting

75%

Akurasi

51%

Precision

76%

Recall

9 of 15

Framework Rekomendasi

Result | Model Rekomendasi Produk

9

10 of 15

Contoh Kasus

Result | Model Rekomendasi Produk

10

Pelanggan A

20 Pelanggan

14 Video�70%

8 Pendidikan�40%

5 Game

25%

5 Musik

25%

similar

Contoh Kasus Belum Menggunakan Produk

Pelanggan A

20 Pelanggan

14 Video�70%

8 Pendidikan�40%

5 Game

25%

5 Musik

0

similar

57%

54%

46%

0

skor asosiasi

Musik

63%

47%

35%

0

Contoh Kasus Sudah Menggunakan Produk

11 of 15

Deployment

Result

11

Navigasi ke Halaman Utama

Navigasi ke Halaman Solution

Navigasi ke Halaman Insights Rasio Churn

Navigasi ke Halaman Insights Kategorikal

Navigasi ke Halaman Insights Klaster Pelanggan

12 of 15

Deployment

Result

12

Input Faktor Churn

Rekomendasi

Impact Rekomendasi

Prediksi Churn

13 of 15

Next Step

13

User A

User B

Jangka Waktu

VALIDASI MODEL CHURN (A/B Testing)

  • Dari pelanggan yang diprediksi churn, diambil n sampel dengan probabilitas paling tinggi sesuai dengan budget yang disediakan untuk melakukan treatment
  • Dari n sampel tersebut, dibagi dua yaitu pelanggan yang diberi treatment pencegahan churn dan pelanggan tanpa treatment
  • Dalam kurun waktu tertentu, dilihat apakah pelanggan yang diberi treatment terbukti churn rate menurun atau tidak

14 of 15

Conclusion

14

  1. Segmentasi pelanggan dengan algoritma clustering K-Means menghasilkan 3 kelompok pelanggan yang terdiri dari, kelompok loyal, kelompok tidak loyal, dan kelompok yang tidak menggunakan internet.

  • Model Logistic Regression dibuat sebagai upaya untuk mengurangi kerugian akibat pelanggan churn, yang memiliki akurasi prediksi sebesar 75%. F1 61%, Precision 51, Recall 76%.

  • Menambahkan model rekomendasi produk yang diharapkan mampu menambah laba perusahaan.

15 of 15

THANK YOU

15