1 of 55

Analisis Regresi LinierοΏ½

Dadan Kusnandar, Ph.D.

dkusnand@untan.ac.id

Bahan bacaan:

Kusnandar, dkk, 2019 Ch. 7 & 8

Hamilton, 1992 Ch. 2 & 3

Analisis regresi linier

1

2 of 55

Theoretical claim: X causes Y?

  • Time ordering: nilai X pada suatu waktu tertentu mempengaruhi nilai Y
  • Covariation: X dan Y berubah secara bersama-sama dengan suatu cara yang sistematis (tidak secara kebetulan)
  • Nonspuriousness: covarians antara X dan Y tidak sepenuhnya dihasilkan oleh hubungannya dengan variabel lain

Analisis bivariat tidak menyediakan informasi yang memadai untuk membuktikan hubungan sebab-akibat

Analisis regresi linier

2

3 of 55

Diagram Pencar (Scatter plot)

Analisis regresi linier

3

4 of 55

Diagram pencar

Pengamatan terhadap diagram pencar:

  • ada atau tidaknya kecenderungan bahwa data tersebut mengelompok di sekitar suatu garis lurus, atau bentuk kurva sederhana lainnya
  • bagaimana kecenderungan bentuk hubungan antara variabel X dan Y
  • bagaimana β€˜kekuatan’ hubungan antara variabel X dan Y

Analisis regresi linier

4

5 of 55

Hubungan antara variabel dependen (Y) dan variabel bebas (X)

Analisis regresi linier

5

Analisis regresi digunakan untuk membangun suatu model matematis untuk menjelaskan bentuk hubungan antarvariabel (jika hubungan tersebut ada)

6 of 55

Model linier

Yi = Ξ²o + Ξ²1Xi

Ξ²o dan Ξ²1 adalah konstanta

X merupakan penduga bagi Y

Model tersebut merupakan sebuah garis lurus

Ξ²o = titik potong dengan sumbu Y

Ξ²1 = koefisien kemiringan (slope)

Analisis regresi linier

6

7 of 55

Garis lurus

Analisis regresi linier

7

8 of 55

Hubungan antara X dan Y

  • hubungan deterministik (deterministic relationship), dimana setiap nilai variabel Y bersifat konstan dan hanya tergantung pada nilai variabel X.
  • hubungan stokastik (stochastic relationship), dimana variabel Y merupakan variabel acak yang nilai-nilainya tergantung pada nilai X, tetapi tidak dapat diduga dengan pasti.

Analisis regresi linier

8

9 of 55

Model Probabilistik

  • Β 

Analisis regresi linier

9

10 of 55

Model probabilistik�…population mean approach…

E[yi|xi] = Ξ²o + Ξ²1xi

Persamaan tersebut menyatakan bahwa nilai rata-rata bagi yi untuk nilai xi tertentu terletak dalam suatu garis lurus

Selain X, galat Ξ΅i (error) menyebabkan nilai yi bervariasi di sekitar E[yi|xi] sehingga

yi = E[yi|xi] + Ξ΅i

yi = Ξ²o + Ξ²1xi + Ξ΅i

Analisis regresi linier

10

11 of 55

Model probabilistik

Analisis regresi linier

11

Y

X

f(y|x)

x1

x2

E(Y|X) = Ξ²0 + Ξ²1X

E(Y1|x1)

E(Y2|x2)

12 of 55

Asumsi

  • Galat mempunyai distribusi yang sama, dengan rata-rata sama dengan nol serta mempunyai varians yang sama untuk setiap x
  • Galat bersifat independen: tidak berkaitan dengan variabel x atau galat bagi kasus lain
  • Galat berdistribusi Normal

Analisis regresi linier

12

13 of 55

Predicted value of Y

Misalkan bo dan b1 masing-masing adalah penduga bagi Ξ²o dan Ξ²1, nilai dugaan bagi y untuk kasus yang ke i adalah

Sisaan atau galat (residual) adalah selisih antara nilai pengamatan dengan nilai dugaannya:

Analisis regresi linier

13

14 of 55

Hubungan antara nilai pengamatan, dugaan dan sisaan

Analisis regresi linier

14

15 of 55

Penduga kuadrat terkecil

Analisis regresi linier

15

Penduga kuadrat terkecil bagi Ξ²0 dan Ξ²1 adalah

Jumlah kuadrat sisaan (JKS):

16 of 55

Koefisien determinasi

Analisis regresi linier

16

dimana

Dapat ditunjukkan bahwa JKT = JKR + JKS

17 of 55

Galat baku bagi koefisien regresi

Analisis regresi linier

17

Galat baku bagi b1 adalah

Galat baku bagi b0 adalah

18 of 55

Pengujian hipotesis bagi koefisien regresi

Analisis regresi linier

18

H0: Ξ²1 = 0

H1: Ξ²1 β‰  0

H0: Ξ²0 = 0

H1: Ξ²0 β‰  0

atau

Pasangan hipotesis

Statistik uji

Tolak H0 jika thitung > tΞ±/2; db = n - 2

19 of 55

Data EXH_REGR.MTW

  • Penelitian dilakukan untuk mendapatkan ukuran kualitas suatu produk, akan tetapi prosedur untuk mendapatkan ukuran tersebut sangat mahal (Score 2). Suatu pendekatan digunakan untuk mengukur kualitas tersebut dengan metode tak langsung (Score 1). Pendekatan ini lebih murah tetapi juga tingkat ketelitiannya kurang jika dibandingkan dengan Score 2. Analisis regresi digunakan untuk menentukan apakah Score 1 dapat digunakan sebagai pengganti bagi Score 2.

Analisis regresi linier

19

20 of 55

Diagram Pencar

Analisis regresi linier

20

21 of 55

Analisis Regresi dengan Minitab

Analisis regresi linier

21

22 of 55

Menu Stat>Regression>Regression

Analisis regresi linier

22

23 of 55

Output Minitab

Analisis regresi linier

23

Regression Analysis: Score2 versus Score1

The regression equation is

Score2 = 1.12 + 0.218 Score1

Predictor Coef SE Coef T P

Constant 1.1177 0.1093 10.23 0.000

Score1 0.21767 0.01740 12.51 0.000

S = 0.127419 R-Sq = 95.7% R-Sq(adj) = 95.1%

Analysis of Variance

Source DF SS MS F P

Regression 1 2.5419 2.5419 156.56 0.000

Residual Error 7 0.1136 0.0162

Total 8 2.6556

Unusual Observations

Obs Score1 Score2 Fit SE Fit Residual St Resid

9 7.50 2.5000 2.7502 0.0519 -0.2502 -2.15R

R denotes an observation with a large standardized residual.

Nilai-p

24 of 55

Analisis Regresi dengan Excel

Analisis regresi linier

24

25 of 55

Analisis Regresi dengan Excel

Analisis regresi linier

25

26 of 55

Analisis Regresi dengan Excel

Analisis regresi linier

26

27 of 55

Confidence interval:

Two applications:

  1. Confidence interval for the mean value of Y, when X = xi; estimate the standard error by

  • Prediction interval for an individual case’s Y value , when X = xi; estimate the standard error by

Analisis regresi linier

27

28 of 55

Confidence and prediction intervals

Analisis regresi linier

28

29 of 55

Regression through the origin

Analisis regresi linier

29

30 of 55

Varians dan kovarians

  • Varians: ukuran keragaman data

  • Kovarians: ukuran keeratan hubungan antar dua variabel

Analisis regresi linier

30

31 of 55

Koefisien korelasi

Digunakan untuk mengukur kekuatan hubungan antar dua variabel (X dan Y)

Koefisien korelasi (r):

Dapat ditunjukkan bahwa

-1≀ r ≀ +1

Analisis regresi linier

31

32 of 55

Analisis regresi linier

32

Positive relationships

Negative relationships

33 of 55

Karakteristik r

  • Nilai r = –1 menunjukkan suatu hubungan linier negatif yang sempurna
  • Nilai r = +1 menunjukkan suatu hubungan linier positif yang sempurna
  • Semakin besar nilai mutlak dari r semakin kuat hubungan linier kedua variabel tersebut
  • Nilai r = 0 menunjukkan tidak adanya hubungan linier antara kedua variabel, artinya, jika kedua variabel tersebut bersifat saling bebas maka nilai r = 0. Akan tetapi jika nilai r = 0 tidak berarti bahwa kedua variabel tersebut bersifat saling bebas, karena kedua variabel tersebut dapat saja mempunyai hubungan yang tidak linier.

Analisis regresi linier

33

34 of 55

Hubungan antar b1 dan r

Koefisien korelasi r dan koefisien regresi b1 keduanya merupakan ukuran keeratan hubungan linier antar variabel X dan Y. Hubungan kedua koefisien tersebut dinyatakan sebagai berikut:

Analisis regresi linier

34

atau

35 of 55

Permasalahan dalam analisis regresi

  • Variabel lain yang diabaikan.
  • Hubungan yang tidak linier
  • Varians galat yang tidak konstan
  • Korelasi antar galat
  • Galat yang tidak berdistribusi normal
  • Kasus influensial

Analisis regresi linier

35

36 of 55

Analisis Regresi Berganda

Analisis regresi linier

36

37 of 55

Model Regresi Berganda

  • Regresi berganda (multiple regression) adalah regresi dengan dua atau lebih variabel X, sehingga merupakan perluasan dari regresi linier sederhana
  • Model probabilistik dalam regresi berganda pada dasarnya merupakan perluasan dari model regresi linier sederhana [Slide 10], misalnya, untuk dua variabel X, yaitu X1 dan X2 modelnya adalah

Analisis regresi linier

37

38 of 55

Model Regresi Berganda

  • Secara umum, model bagi regresi liner berganda yang melibatkan k – 1 variabel X adalah sebagai berikut

  • Koefisien bagi xk, yaitu bk, adalah perubahan dalam nilai rata-rata Y untuk setiap peningkatan xk sebesar satu satuan jika nilai variabel X lainnya tetap
  • Model regresi sampel untuk model di atas adalah

Analisis regresi linier

38

39 of 55

Model Regresi Berganda

  • Dalam notasi matriks, persamaan regresi sampel dituliskan sebagai berikut:

dimana

  • Nilai dugaan bagi koefisien regresi diperoleh dari

Analisis regresi linier

39

40 of 55

Data PULSE.MTW

  • Data tersebut berasal dari suatu percobaan sederhana yang melibatkan 92 orang mahasiswa. Setiap mahasiswa diukur tinggi dan berat badannya, selain itu dicatat juga jenis kelamin, kebiasaan merokok dan kebiasan berolahraga serta denyut nadinya pada saat beristirahat. Sebagian dari mereka diminta berlari-lari di tempat selama satu menit, setelah itu semua mahasiswa diukur lagi denyut nadinya.

Analisis regresi linier

40

41 of 55

Penjelasan ttg Data Pulse.mtw

Analisis regresi linier

41

Kolom

Nama

Keterangan

C1

Pulse1

Denyut nadi pada pengukuran pertama

C2

Pulse2

Denyut nadi pada pengukuran kedua

C3

Ran

1 = lari-lari di tempat; 2 = tidak lari-lari di tempat

C4

Smokes

1 = merokok; 2 = kadang-kadang merokok

C5

Sex

1 = laki-laki; 2 = perempuan

C6

Height

Tinggi badan (dalam inci)

C7

Weight

Berat badan (dalam pound)

C8

Activity

Tingkat aktivitas fisik sehari-hari:

1 = rendah

2 = sedang

3 = tinggi

42 of 55

Output regresi linier sederhana dari data PULSE.MTW dengan program MINITAB

Regression Analysis

Β 

The regression equation is

Pulse2 = 10.3 + 0.957 Pulse1

Β 

Predictor Coef StDev T P

Constant 10.278 9.499 1.08 0.282

Pulse1 0.9568 0.1289 7.42 0.000

Β 

S = 13.54 R-Sq = 38.0% R-Sq(adj) = 37.3%

Β 

Analysis of Variance

Β 

Source DF SS MS F P

Regression 1 10096 10096 55.09 0.000

Error 90 16494 183

Total 91 26590

Β 

Analisis regresi linier

42

43 of 55

Output MINITAB untuk regresi dengan dua variabel X

The regression equation is

Pulse2 = 16.1 + 0.942 Pulse1 - 0.0330 Weight

Β 

Predictor Coef StDev T P

Constant 16.12 14.44 1.12 0.267

Pulse1 0.9424 0.1322 7.13 0.000

Weight -0.03303 0.06128 -0.54 0.591

Β 

S = 13.59 R-Sq = 38.2% R-Sq(adj) = 36.8%

Analisis regresi linier

43

44 of 55

Pemilihan Variabel

  • Penambahan variabel bebas X ke dalam suatu persamaan regresi akan menyebabkan terjadinya beberapa perubahan yang menimbulkan berbagai pertanyaan, diantaranya adalah:
    • Pendugaan menjadi menjadi lebih baik: Koefisien determinasi, R2 meningkat dan simpangan baku sisaan, se, mengecil. Pertanyaannya adalah, apakah peningkatan dalam pendugaan tersebut cukup besar?
    • Apakah koefisien-koefisien regresinya berbeda dari nol? dan apakah koefisien regresi tersebut cukup besar sehingga variabel yang bersangkutan merupakan hal yang cukup penting?
    • Koefisien regresi bagi variabel-variabel independen yang berkaitan akan mengalami perubahan. Apakah penambahan variabel baru tersebut secara nyata menyebabkan berubahnya kesimpulan kita tentang pengaruh variabel-variabel X lain?

Analisis regresi linier

44

45 of 55

Pemilihan Variabel

  • Nilai koefisien determinasi terkoreksi dihitung dengan rumus berikut:

  • Aplikasi lain yang sering digunakan dalam pemilihan variabel adalah varians sisaan (residual variance atau biasa juga disebut mean squared error), yaitu

  • dan simpangan baku sisaan (residual standard deviation), yaitu

Analisis regresi linier

45

46 of 55

Pemilihan Variabel

  • Selain itu, statistik lain yang dapat digunakan dalam pemilihan variabel adalah Mallows’ Cp:

  • dimana adalah varians sisaan dari model persamaan regresi yang melibatkan semua variabel X yang relevan; JKSp adalah jumlah kuadrat sisa dari suatu model persamaan regresi yang hanya melibatkan sebagian dari variabel X yang relevan, yaitu hanya p buah variabel X dengan p ≀ k
  • Dengan kriteria ini, maka model yang kita cari adalah suatu model dengan nilai p yang kecil dan nilai Cp yang kecil dimana p β‰ˆ Cp.

Analisis regresi linier

46

47 of 55

Pemilihan Variabel

  • Dalam memilih variabel untuk suatu model persamaan regresi, terdapat dua kemungkinan kesalahan yang dapat terjadi, yaitu:
    • Memasukkan suatu variabel yang tidak relevan
    • Tidak memasukkan variabel yang relevan.

Analisis regresi linier

47

48 of 55

Output dari perintah Best Subset Regression

Response is Pulse2

Β 

A

c

P S H W t

u m e e i

l o i i v

s R k S g g i

R-Sq e a e e h h t

Vars R-Sq (adj) C-p S 1 n s x t t y

Β 

1 38.0 37.3 108.1 13.538 X

2 67.7 67.0 16.1 9.8219 X X

3 72.1 71.2 4.1 9.1751 X X X

4 72.9 71.7 3.5 9.0929 X X X X

5 73.2 71.7 4.6 9.0951 X X X X X

6 73.4 71.5 6.2 9.1260 X X X X X X

7 73.4 71.2 8.0 9.1716 X X X X X X X

Analisis regresi linier

48

49 of 55

Output MINITAB bagi regresi dengan 3 variabel independen

The regression equation is

Pulse2 = 42.6 + 0.812 Pulse1 - 20.1 Ran + 7.75 Sex

Β 

Predictor Coef StDev T P

Constant 42.618 7.358 5.79 0.000

Pulse1 0.81217 0.09151 8.88 0.000

Ran -20.069 1.989 -10.09 0.000

Sex 7.753 2.073 3.74 0.000

Β 

S = 9.175 R-Sq = 72.1% R-Sq(adj) = 71.2%

Β 

Analysis of Variance

Β 

Source DF SS MS F P

Regression 3 19182.0 6394.0 75.95 0.000

Error 88 7408.0 84.2

Total 91 26590.0

Analisis regresi linier

49

50 of 55

Uji t dan selang kepercayaan bagi koefisien regresi

  • Penduga bagi galat baku dari koefisien-koefisien regresi dihitung sebagai akar kuadrat dari unsur-unsur diagonal utama matriks varians-covarians bagi penduga koefisiennya, S, dimana

  • Statistik uji t untuk menguji pasangan hipotesis H0: Ξ²i = 0 lawan H1: Ξ²i β‰  0 adalah

atau, jika H0 benar, maka

  • Statistik t tersebut berdistribusi t dengan derajat bebas n = n – k

Analisis regresi linier

50

51 of 55

Selang Kepercayaan bagi koefisien regresi

  • Selang kepercayaan (confidence interval) bagi koefisien regresi digunakan untuk menduga kisaran dari koefisien tersebut pada tingkat kepercayaan tertentu. Selang kepercayaan bagi koefisien regresi ke i , bi, ditentukan sebagai berikut:

  • dimana nilai t untuk tingkat kepercayaan tertentu ditentukan dari distribusi teoritis t dengan derajat bebas n = n – k
  • Selang kepercayaan 95% bagi koefisien regresi untuk variabel Pulse1, yaitu b1, adalah

  • yaitu 0,6299 ≀ b1 ≀ 0,9941

Analisis regresi linier

51

52 of 55

Selang Kepercayaan bagi koefisien regresi

  • Selang kepercayaan tersebut diinterpretasikan sebagai berikut: jika kita mengambil sampel acak berkali-kali, kemudian kita buat selang kepercayaan dengan cara seperti di atas bagi setiap sampel acak tersebut, maka 95% dari selang-selang tersebut akan mengandung nilai b1 yang sebenarnya.

Analisis regresi linier

52

53 of 55

Multikolinieritas (multicollinearity)

  • Keadaan ini biasanya terjadi ketika dalam model regresi yang digunakan terdapat suatu variabel bebas yang berkorelasi sangat tinggi dengan variabel bebas lainnya. Variabel-variabel bebas yang saling berkorelasi tidak memberikan tambahan informasi terhadap pendugaan bagi variabel dependen dan dapat menimbulkan kesulitan ketika kita mencoba memisahkan pengaruh variabel bebas tersebut terhadap variabel dependennya. Dalam kasus yang demikian, nilai dugaan bagi koefisien regresi akan sangat berfluktuasi secara drastis tergantung pada variabel bebas yang dimasukkan ke dalam model regresinya.

Analisis regresi linier

53

54 of 55

Multikolinieritas (multicollinearity)

  • Kolinieritas antar variabel X1 dan X2 menyebabkan kita tidak dapat menentukan apakah perubahan dalam nilai Y disebabkan oleh perubahan dalam X1 atau disebabkan oleh perubahan dalam X2 karena kedua variabel tersebut mempunyai hubungan linier yang sempurna. Oleh karena itu, salah satu variabel, baik X1 atau X2, harus dikeluarkan dari model. Hal ini tidak menyebabkan hilangnya informasi karena terdapat suatu hubungan yang sempurna antar keduanya, sehingga kedua variabel tersebut sebenarnya mencerminkan satu variabel yang sama.

Analisis regresi linier

54

55 of 55

Multikolinieritas (Contoh)

  • Andaikan terdapat multikolinieritas antar tiga variabel X, yaitu X1, X2 dan X3. Uji F statistik mungkin menolak hipotesis nol berikut:

H0: Ξ²1 = Ξ²2 = Ξ²3 = 0

  • Artinya, jika H0 tersebut ditolak, maka uji F menyatakan bahwa paling tidak ada satu nilai b yang tidak sama dengan nol. Jika kemudian kita lakukan uji t untuk menguji hipotesis hipotesis berikut

H0: Ξ²1 = 0

H0: Ξ²2 = 0

H0: Ξ²3 = 0

  • Hasil pengujian tersebut mungkin akan kontradiktif dengan hasil pengujian dengan statistik F, yaitu bahwa uji t gagal untuk menolak hipotesis nol. Jika keadaan seperti ini terjadi, dapat disimpulkan bahwa paling tidak terdapat satu multikolinieritas antar variabel X yang mempengaruhi variabel Y.

Analisis regresi linier

55