1 of 44

Diagnosis Data dan Pemilihan Model Regresi Terbaik

Oleh

Dr. Ir. Edizon Jambormias, M.Si.

2 of 44

DISKRIPSI MATERI

  • Analisis korelasi: memberikan inferensia tentang keeratan hubungan antara dua atau lebih peubah, tetapi gagal menginformasikan hubungan fungsi antar peubah yang berkorelasi itu.
  • Analisis regresi memberikan inferensia mengenai:
    • Hubungan fungsi (bentuk hubungan) antara peubah tak-bebas y dengan peubah-peubah bebas xi.
    • Besarnya kontribusi peubah-peubah bebas xi mempengaruhi keragaman peubah tak-bebas y (menggunakan koefisien determinasi).

3 of 44

Model Regresi

  • Model:

βi = koefisien regresi untuk i = 1, 2, …, p parameter

Xi = peubah bebas untuk i = 1, 2, …, k = p-1 peubah.

  • Model dugaan:

bi =

4 of 44

Pengujian Hipotesis

  • Hipotesis

Untuk setiap p parameter

  • Pengujian hipotesis:
    • Statistik uji:

    • Keputusan:

      • t jatuh pada peluang p ≥ α: terima H0.
      • t jatuh pada peluang p < α: tolak H0.

5 of 44

Prosedur Analisis dengan Minitab

  • Data

6 of 44

Analisis Regresi Model Penuh

7 of 44

Analisis Regresi Model Penuhlanjutan

Regression Analysis: Y versus X1, X2, X3, X4, X5, X6, X7

The regression equation is

Y = 153 + 0.0801 X1 + 3.43 X2 - 0.103 X3 - 0.370 X4 + 0.356 X5 + 1.75 X6

- 1.97 X7

Predictor Coef SE Coef T P

Constant 153.04 85.75 1.78 0.096

X1 0.08013 0.07903 1.01 0.328

X2 3.434 1.144 3.00 0.010

X3 -0.10313 0.04774 -2.16 0.049

X4 -0.37020 0.08147 -4.54 0.000

X5 0.3562 0.1895 1.88 0.081

X6 1.7530 0.9236 1.90 0.079

X7 -1.9746 0.4961 -3.98 0.001

S = 54.8371 R-Sq = 99.1% R-Sq(adj) = 98.7%

  • Nilai p < (α=0.05)
  • Tolak H0

8 of 44

Analisis Regresi Parsiallanjutan

  • Inferensia:
    • Peubah x2, x3, x4 dan x7 memiliki hubungan dengan peubah y karena memiliki nilai p yang lebih kecil dari α=0.05!
      • Peningkatan x2 sebesar 1 satuan peubah x2, menyebabkan peningkatan y sebesar 3.434 satuan peubah y.
      • Peningkatan x3 sebesar 1 satuan peubah x3, menyebabkan penurunan y sebesar 0.10313 satuan peubah y.
      • Peningkatan x4 sebesar 1 satuan peubah x4, menyebabkan penurunan y sebesar 0.37020 satuan peubah y.
      • Peningkatan x7 sebesar 1 satuan peubah x7, menyebabkan penurunan y sebesar 1.9746 satuan peubah y.

9 of 44

Analisis Regresi vs Korelasi

Y X1 X2 X3 X4 X5 X6

X1 0.969

0.000

X2 -0.423 -0.470

0.050 0.027

X3 -0.300 -0.377 0.707

0.175 0.083 0.000

X4 0.880 0.958 -0.454 -0.394

0.000 0.000 0.034 0.069

X5 0.970 0.997 -0.462 -0.386 0.958

0.000 0.000 0.030 0.076 0.000

X6 0.974 0.965 -0.476 -0.288 0.881 0.956

0.000 0.000 0.025 0.194 0.000 0.000

X7 -0.476 -0.383 0.377 -0.158 -0.362 -0.385 -0.464

0.025 0.079 0.084 0.484 0.098 0.076 0.030

Cell Contents: Pearson correlation

P-Value

Bandingkan dengan Hasil Analisis Korelasi:

10 of 44

Analisis Regresi vs Korelasilanjutan

    • Perhatikan bahwa hasil ini berbeda dengan analisis korelasi sebelumnya dimana x1, x4, x5, x6 dan x7 berkorelasi nyata hingga sangat nyata dengan y.
    • Perbedaan hasil analisis korelasi dan regresi parsial karena pengaruh multikolinearitas.
  • Inferensia berdasarkan hasil analisis regresi parsial dapat menyesatkan.
  • Perlu dilanjutkan dengan seleksi model regresi terbaik.

11 of 44

Asumsi-asumsi dalam Analisis Regresi Berganda

  •  

12 of 44

Analisis Sisaan

  •  

13 of 44

Row Y FITS1 RESI1

1 244,8 275,96 -31,159

2 26,7 43,94 -17,238

3 31,1 59,74 -28,637

4 294,9 258,25 36,649

5 102,7 134,18 -31,479

6 391,0 388,24 2,757

7 143,2 209,45 -66,248

8 250,5 286,24 -35,743

9 302,9 275,39 27,509

10 142,6 135,13 7,473

11 121,5 235,06 -113,559

12 369,5 282,94 86,563

13 294,5 255,71 38,789

14 519,4 457,19 62,210

15 217,0 204,08 12,917

16 98,2 86,35 11,853

17 466,9 405,74 61,155

18 1477,0 1484,04 -7,039

19 2072,0 2086,27 -14,270

20 217,7 239,18 -21,480

21 100,6 75,54 25,065

22 140,8 146,89 -6,089

 

 

14 of 44

Analisis Sisaanlanjutan

Sisaan dapat digunakan untuk analisis sisaan

  • Bisa melihat pola sebaran peubah acak Y
  • Melalui sisaan, dapat diketahui apakah asumsi-asumsi yang disyaratkan pada pendugaan dengan metode kuadrat terkecil (least square methods, MKT) dipenuhi atau tidak, khususnya diagnosis Gauss-Marcov, kenormalan dan kebebasan galat.
  • Melalui sisaan, juga dapat dilakukan pengujian parameter regresi, sehingga perlu diketahui sebaran sisaan.
  • Melalui sisaan, juga bisa dideskripsikan apakah model yang terpilih pas (fit) atau tidak
  • Melalui sisaan, juga bisa dideskripsikan apakah sebuah pengamatan merupakan pencilan atau bukan
  • Melalui sisaan, juga bisa dideskripsikan apakah sebuah pengamatan merupakan pengamatan berpengaruh atau bukan

15 of 44

Analisis Sisaanlanjutan

  •  

16 of 44

Analisis Sisaanlanjutan

  •  

17 of 44

Analisis Sisaanlanjutan

  •  

18 of 44

Heteroskedatisitas, pelanggaran asumsi kehomogenan ragam

  • Sebaran sisaan di sekitar nilai nol atau tidak 🡺 nilai harapan
  • Lebar pita sisaan sama atau tidak untuk semua nilai dugaan 🡺 kehomogenan ragam
  • Plot berpola atau tidak
    • ketidakpasan model
    • sisaan bebas atau tidak

 

19 of 44

Analisis Sisaanlanjutan

  • Plot sisaan vs Peluang Normal
    • Untuk memperkirakan kenormalan data (asumsi kenormalan)
    • Perintah Minitab: Graph> Probability Plot...

20 of 44

Disertai statistik uji formal Anderson-Darling

Plot sisaan terhadap Peluang Normal untuk mencocokkan apakah sebaran sisaan menyebar normal atau tidak.

🡺 Ya jika pola tebaran membentuk garis lurus

Hasil Diagnosa: Titik2 masih di dalam selang 95%

🡺Bisa dianggap lurus

🡺 Menyebar Normal

Uji Formal:

  • Jika Nilai Peluang Statistik Uji AD (P-Value) < α: Tidak menyebar normal.
  • Jika Nilai-P ≥ α: menyebar normal.

Karena (Nilai-P = 0.794) > (α = 0.05) 🡺 Menyebar Normal

21 of 44

Analisis Sisaanlanjutan

Plot Sisaan vs Urutan

Memeriksa apakah sisaan bebas satu dengan lainnya atau tidak. Jika tidak membentuk pola (acak), sisaan bebas satu dari lainnya.

  • Perintah Minitab:
    • Membuat peubah Urutan dengan atribut 1, 2, ..., n pada salah satu lajur yang kosong, dan beri nama Urutan.

22 of 44

  • Plot Sisaan vs Urutan

Hasil Diagnosis:

  • Plot tidak membentuk pola 🡺 Sisaan saling bebas!
  • Namun bila titik dalam lingkaran dihapus, apakah membentuk pola?

23 of 44

Transformasi Data

  •  

dimana λ adalah parameter yang harus ditentukan dari data.

24 of 44

Beberapa rumpun transformasi Box-Cox

Perintah Minitab: Stat> Control Chats> Box-Cox Transformation...

25 of 44

 

Transformasi

logaritama

Setelah respon Y ditransformasi, lakukan analisis regresi seperti biasa, sisaan harus diperiksa lagi, jika masih belum memenuhi asumsi, model diubah, kemungkinan ada suku nonlinier yg belum masuk model, atau lakukan pendugaan dg MKT terboboti, atau model linear terampat.

26 of 44

Seleksi Model Regresi Terbaik

  • Seleksi banyaknya peubah bebas dari total k peubah bebas yang menghasilkan model terbaik.
  • Kriteria seleksi:

Perhatikan tabel anova model regresi

Sumber

db

JK

KT

Regresi

k = p-1

JKR =

KTR = (JKR)/(p-1)

Galat

n – p

JKG =

KTG = (JKG)/(n-p)

Total

n - 1

JKT =

27 of 44

Seleksi Model Regresi Terbaiklanjutan

    • Mengandung paling sedikit peubah bebas (efisiensi biaya pengukuran)
    • Koefisien Determinasi Ganda (R2)

      • Kriteria: R2 tinggi.
      • Kelemahan: R2 semakin tinggi dengan penambahan peubah bebas baru ke dalam model.
    • R2 Terkoreksi

      • Merupakan R2 yang dikoreksi oleh derajat bebasnya.
      • Makin bertambah p, semakin rendah. Dengan demikian, bila R2 Terkoreksi tinggi, model makin baik.

28 of 44

Seleksi Model Regresi Terbaiklanjutan

    • Sisaan (s2) Model

      • Model terbaik adalah model yang memiliki s2 rendah.

σ2

p

Model terbaik, s2 = σ2

29 of 44

Seleksi Model Regresi Terbaiklanjutan

  •  

Terbaik:

  • Cpp
  • Peubah bebas paling sedikit

30 of 44

Prosedur Seleksi Model Terbaik

  • Prosedur Stepwise Regression
    • Menggunakan prosedur seleksi langkah maju (the forward selection procedure) dan prosedur eliminasi langkah mundur (the backward elimination procedure) secara serempak.
      • Forward selection procedure:
        • Peubah-peubah bebas dimasukkan berturut-turut ke dalam model sederhana sesuai urutan besarnya korelasi atau kontribusi JKR parsial hingga model yang kompleks.
        • Proses berhenti pada tahap pemasukan sebelumnya bila pemasukan peubah yang baru menghasilkan salah satu atau beberapa koefisien regresi yang tidak nyata.
      • Backward elimination procedure:
        • Peubahbebas-peubahbebas dimasukkan semuanya ke dalam model (full model).
        • Peubah bebas dengan kontribusi JKR parsial paling kecil dikeluarkan secara berturut-turut dari dalam model hingga menghasilkan model sederhana dengan koefisien regresi nyata.

31 of 44

Prosedur Seleksi Model Terbaik lanjutan

    • Prosedur analisis dengan Minitab

Masukkan semua peubah bebas

Masukkan peubah respons

32 of 44

Prosedur Seleksi Model Terbaik lanjutan

Stepwise Regression: Y versus X1, X2, X3, X4, X5, X6, X7

Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15

Response is Y on 7 predictors, with N = 22

Step 1 2 3 4 5 6

Constant -18.76 64.92 110.57 189.58 52.14 132.89

X6 6.45 3.57 2.39 1.63 1.74 2.33

T-Value 19.21 3.75 2.88 2.09 2.41 3.21

P-Value 0.000 0.001 0.010 0.052 0.028 0.006

X5 0.233 0.537 0.596 0.591 0.527

T-Value 3.17 5.10 6.30 6.76 6.09

P-Value 0.005 0.000 0.000 0.000 0.000

X4 -0.329 -0.359 -0.347 -0.331

T-Value -3.47 -4.30 -4.47 -4.62

P-Value 0.003 0.000 0.000 0.000

X7 -1.04 -1.19 -1.77

T-Value -2.59 -3.14 -3.90

P-Value 0.019 0.006 0.001

X2 1.30 3.16

T-Value 1.97 2.84

P-Value 0.066 0.012

X3 -0.093

T-Value -1.99

P-Value 0.065

S 112 93.3 74.2 64.7 59.8 54.9

R-Sq 94.86 96.64 97.98 98.55 98.84 99.08

R-Sq(adj) 94.60 96.28 97.65 98.21 98.47 98.71

Mallows Cp 66.0 38.9 19.0 11.6 9.0 7.0

Model terbaik:

  • Tahap 6
  • Cp = p = 7
  • Tetapi uji hipotesis koef X3 tidak nyata

Model terbaik:

  • Tahap 3 (juga 2 & 1)
  • Peubah bebas paling sedikit
  • Tetapi (Cp = 19) > (p = 4).

Alternatif:

naikkan alpha-to-Enter dan alpha to remove dari 0.15 menjadi 0.065.

33 of 44

Prosedur Seleksi Model Terbaik lanjutan

Klik Methods…

Ganti dengan 0.065.

34 of 44

Prosedur Seleksi Model Terbaik lanjutan

Stepwise Regression: Y versus X1, X2, X3, X4, X5, X6, X7

Alpha-to-Enter: 0.065 Alpha-to-Remove: 0.065

Response is Y on 7 predictors, with N = 22

Step 1 2 3 4

Constant -18.76 64.92 110.57 189.58

X6 6.45 3.57 2.39 1.63

T-Value 19.21 3.75 2.88 2.09

P-Value 0.000 0.001 0.010 0.052

X5 0.233 0.537 0.596

T-Value 3.17 5.10 6.30

P-Value 0.005 0.000 0.000

X4 -0.329 -0.359

T-Value -3.47 -4.30

P-Value 0.003 0.000

X7 -1.04

T-Value -2.59

P-Value 0.019

S 112 93.3 74.2 64.7

R-Sq 94.86 96.64 97.98 98.55

R-Sq(adj) 94.60 96.28 97.65 98.21

Mallows Cp 66.0 38.9 19.0 11.6

Model terbaik:

  • Tahap 3
  • Peubah bebas paling sedikit 3 peubah
  • Walau (Cp = 19) > (p = 4).

Model terbaik:

  • Tahap 2
  • Peubah bebas paling sedikit 2 peubah
  • Walau (Cp = 38.9) > (p = 3).

Model terbaik:

  • Tahap 1
  • Peubah bebas paling sedikit 1 peubah
  • Walau (Cp = 66) > (p = 2).

35 of 44

Prosedur Seleksi Model Terbaiklanjutan

  • Prosedur Best Subsets Regression
    • Prosedurnya dengan menentukan gugus model-model terbaik yang mungkin pada setiap penambahan peubah bebas hingga banyaknya peubah makin kompleks (full models regression)

36 of 44

Prosedur Seleksi Model Terbaik lanjutan

Best Subsets Regression: Y versus X1, X2, X3, X4, X5, X6, X7

Response is Y

Mallows X X X X X X X

Vars R-Sq R-Sq(adj) Cp S 1 2 3 4 5 6 7

1 94.9 94.6 66.0 112.41 X

1 94.1 93.9 77.7 119.92 X

2 97.1 96.7 32.2 87.300 X X

2 96.7 96.4 37.4 91.941 X X

3 98.2 97.9 15.7 70.438 X X X

3 98.0 97.6 19.0 74.201 X X X

4 98.6 98.2 11.6 64.657 X X X X

4 98.4 98.0 13.9 67.687 X X X X

5 98.8 98.5 9.0 59.770 X X X X X

5 98.8 98.4 9.7 60.911 X X X X X

6 99.1 98.7 7.0 54.888 X X X X X X

6 98.9 98.5 9.5 59.286 X X X X X X

7 99.1 98.7 8.0 54.837 X X X X X X X

37 of 44

Prosedur Seleksi Model Terbaik lanjutan

  • Model-model terpilih merupakan model terbaik
  • Lakukan analisis regresi parsial untuk untuk semua model terbaik tsb, dimulai dari model paling kompleks.
  • Perhatikan model dengan semua koefisien regresi nyata dan memenuhi kriteria s2, R2, R2adj, Cp, dan sedikit mengandung peubah bebas.

38 of 44

Prosedur Seleksi Model Terbaik lanjutan

  • Regresi: y=f(x1, x2, x3, x4, x5, x6, x7)

  • Regresi: y=f(x1, x2, x3, x4, x6, x7)

Predictor Coef SE Coef T P

Constant 153.04 85.75 1.78 0.096

X1 0.08013 0.07903 1.01 0.328

X2 3.434 1.144 3.00 0.010

X3 -0.10313 0.04774 -2.16 0.049

X4 -0.37020 0.08147 -4.54 0.000

X5 0.3562 0.1895 1.88 0.081

X6 1.7530 0.9236 1.90 0.079

X7 -1.9746 0.4961 -3.98 0.001

Tidak nyata

Predictor Coef SE Coef T P

Constant 180.01 91.40 1.97 0.068

X1 0.21233 0.03897 5.45 0.000

X2 4.190 1.158 3.62 0.003

X3 -0.13432 0.04840 -2.78 0.014

X4 -0.38569 0.08762 -4.40 0.001

X6 1.3316 0.9687 1.37 0.189

X7 -2.3392 0.4937 -4.74 0.000

39 of 44

Prosedur Seleksi Model Terbaik lanjutan

  • Regresi: y=f(x2, x3, x4, x5, x6, x7)

  • Regresi: y=f(x1, x2, x3, x4, x7)

Tidak nyata

Predictor Coef SE Coef T P

Constant 132.89 83.49 1.59 0.132

X2 3.163 1.113 2.84 0.012

X3 -0.09324 0.04678 -1.99 0.065

X4 -0.33073 0.07163 -4.62 0.000

X5 0.52724 0.08652 6.09 0.000

X6 2.3315 0.7270 3.21 0.006

X7 -1.7716 0.4543 -3.90 0.001

Predictor Coef SE Coef T P

Constant 210.35 91.13 2.31 0.035

X1 0.26096 0.01677 15.56 0.000

X2 3.782 1.150 3.29 0.005

X3 -0.11447 0.04746 -2.41 0.028

X4 -0.45719 0.07245 -6.31 0.000

X7 -2.4479 0.5007 -4.89 0.000

Model terbaik?

40 of 44

Prosedur Seleksi Model Terbaik lanjutan

  • Regresi: y=f(x2, x4, x5, x6, x7)

  • Regresi: y=f(x2, x4, x5, x7)

Tidak nyata

Predictor Coef SE Coef T P

Constant 52.14 79.50 0.66 0.521

X2 1.3011 0.6594 1.97 0.066

X4 -0.34663 0.07751 -4.47 0.000

X5 0.59126 0.08748 6.76 0.000

X6 1.7419 0.7232 2.41 0.028

X7 -1.1888 0.3787 -3.14 0.006

Predictor Coef SE Coef T P

Constant 139.71 80.06 1.74 0.099

X2 1.1753 0.7444 1.58 0.133

X4 -0.42730 0.07916 -5.40 0.000

X5 0.76640 0.05508 13.92 0.000

X7 -1.5097 0.4014 -3.76 0.002

41 of 44

Prosedur Seleksi Model Terbaik lanjutan

  • Regresi: y=f(x4, x5, x6, x7)

  • Regresi: y=f(x4, x5, x6)

  • Regresi: y=f(x4, x5, x7)

Tidak nyata

Predictor Coef SE Coef T P

Constant 189.58 41.46 4.57 0.000

X4 -0.35923 0.08356 -4.30 0.000

X5 0.59572 0.09460 6.30 0.000

X6 1.6288 0.7798 2.09 0.052

X7 -1.0394 0.4014 -2.59 0.019

Predictor Coef SE Coef T P

Constant 110.57 32.22 3.43 0.003

X4 -0.32909 0.09496 -3.47 0.003

X5 0.5371 0.1054 5.10 0.000

X6 2.3888 0.8291 2.88 0.010

Predictor Coef SE Coef T P

Constant 259.47 26.67 9.73 0.000

X4 -0.43400 0.08226 -5.28 0.000

X5 0.76013 0.05716 13.30 0.000

X7 -1.3549 0.4051 -3.34 0.004

Model terbaik?

Model terbaik?

42 of 44

Prosedur Seleksi Model Terbaik lanjutan

  • Regresi: y=f(x1, x4)

  • Regresi: y=f(x4, x5)

Model terbaik?

Model terbaik?

Predictor Coef SE Coef T P

Constant 159.69 21.48 7.43 0.000

X1 0.26336 0.02490 10.58 0.000

X4 -0.4333 0.1074 -4.03 0.001

Predictor Coef SE Coef T P

Constant 189.01 20.27 9.33 0.000

X4 -0.4412 0.1019 -4.33 0.000

X5 0.78762 0.07011 11.23 0.000

43 of 44

Prosedur Seleksi Model Terbaik lanjutan

Stepwise Regression

  • y=f(x6)

  • y=f(x5, x6)

  • y=f(x4, x5, x6)

Best Subsets Regression

  • y=f(x1, x4)

  • y=f(x4, x5)

  • y=f(x4, x5, x7)

  • y=f(x4, x5, x6)

  • y=f(x1, x2, x3, x4, x7)

s = 112; R-sq = 94.86;

R-sq(adj)= 94.6; Cp = 66

s = 93.3; R-sq = 96.64;

R-sq(adj)= 96.28; Cp = 38.9

s = 74.2; R-sq = 97.98;

R-sq(adj)= 97.65; Cp = 19.0

s = 91.941; R-sq = 96.7;

R-sq(adj)= 96.4; Cp = 37.4

s = 87.3; R-sq = 97.1;

R-sq(adj)= 96.7; Cp = 32.2

s = 70.438; R-sq = 98.2;

R-sq(adj)= 97.9; Cp = 15.7

s = 74.201; R-sq = 98.0;

R-sq(adj)= 97.6; Cp = 19.0

s = 60.911; R-sq = 98.8;

R-sq(adj)= 98.4; Cp = 9.7

44 of 44

TERIMA KASIH

Selamat Belajar, semoga sukses