1 of 16

Regresione analize u programu SPSS

Miloš Bojičić

Kancelarija za obezbeđenje kvaliteta

Univerzitet u Beogradu

2 of 16

Regresiona analiza

  • Opisujemo odnos dve ili više promeniljivih
  • Nezavisna varijabla (prediktorska), zavisna varijabla (kriterijumska)
  • Jedna nezavisna promenljiva – prosta regresiona analiza
  • Više nezavisnih promenljivih – multipla regresiona analiza

Regresiona jednačina:

  1. Pokazuje u kakvom su odnosu promene zavisne varijable sa promenama nezavisne
  2. Omogućava predikciju vrednosti zavisne varijable za date vrednosti nezavisne

3 of 16

Regresiona jednačina

y = a + bx

y - zavisna promenljiva,

a - konstanta,

b - koeficijent nagiba,

x – nezavisna promenljiva.

Konstanta a, i koeficijent nagiba b, takođe se nazivaju regresionim koeficijentima. Koeficijent nagiba b predstavlja veličinu porasta zavisne varijable y, za jediničnu promenu nezavisne varijable x!

4 of 16

Osobine parametra b

  • Određuje nagib regresionе prave!

  1. ako je b = 0, regresiona prava je paralelna sa x-osom. To znači da obeležje y ima uvek istu vrednost i da ne zavisi od obeležja x
  2. ako je b > 0, regresiona prava raste, tj. veza je direktna
  3. ako je b < 0, regresiona prava je opadajuća, tj. veza je inverzna.

5 of 16

Ciljevi regresione analize

  1. Odrediti koliko se zavisna varijabla menja pri promeni nezavisne varijable za jednu jedinicu
  2. Predviđanje novih vrednosti zavisne varijable na osnovu nezavisne varijable
  3. Odrediti koliki deo varijacije zavisne varijable se objašnjava nezavisnom varijablom

6 of 16

Pretpostavke za jednostanvnu (bivarijatnu) linearnu regresiju

  1. Kriterijumska varijabla je merena na kontinualnom nivou.
  2. Prediktorska varijabla je takođe merena kontinualnom nivou.
  3. Postojanje linearne veze između prediktorske i kriterijumske varijable.
  4. Nezavisnost opservacija
  5. Nepostojanje značajnih autlejera, odnosno netipičnih tačaka
  6. Podaci moraju ukazivati na homoskedastičnost
  7. Aproksimativna normalna raspodela reziduala na regresionoj pravi

7 of 16

3. Postojanje linearne veze između prediktorske i kriterijumske varijable

Nacrtan je dijagram raspršenja koncentracije holesterola u odnosu na prosečno dnevno vreme provedeno gledajući TV. Vizuelnim pregledom ovog dijagrama uočena je linearna veza između varijabli.

Alternative u slučaju neliearne veze:

1. Sprovođenje transformacija

2. Polinomna regresija

3. Nelinearna regresija

8 of 16

5. Nepostojanje značajnih autlejera

Ako je data set veliki, osim grafičkog prikaza možete koristiti Casewise diagnostics

Tabela se generiše samo ukoliko je zadovoljen zadati kriterijum!

Rešenja za netipične tačke:

  1. Transformacija zavisne varijable
  2. Pokretanje linearne regresije sa ili bez autlejera
  3. Pokretanje regresije sa robustnim standardnim greškama (nije trenutno moguće u SPSS programu)

9 of 16

4. Nezavisnost opservacija

  • Podaci u vašem skupu ni na koji način nisu međusobno povezani; vrednost jednog posmatranja ne utiče na vrednost drugog
  • Testira se Durbin-Watson testom
  • Test može imati vrednosti od 0 do 4, rezultat približan 2 zadovoljava pretpostavku

Alternativa – analiza vremenskih serija (time series analysis)

Utvrđena je nezavisnost reziduala, što je procenjeno pomoću Durbin-Vatsonovog testa čija je vrednost 1,913.

10 of 16

6. Testiranje homoskedastičnosti

  • Posmatra se dijagram raspršenja standardizovanih reziduala i standardizovanih predviđenih vrednosti

Alternative:

  1. Transformacije podataka
  2. Regresija najmanjih kvadrata (weighted least-squares (WLS) regression)
  3. Robustna regresija

Utvrđena je homoskedastičnost, što je procenjeno vizuelnim pregledom dijagrama standardizovanih reziduala u odnosu na standardizovane predviđene vrednosti.

11 of 16

7. Testiranje normalnosti

  • Posmatraju se histogrami i Normal P-P plotovi

Reziduali su bili normalno raspoređeni, što je procenjeno vizuelnim pregledom dijagrama verovatnoće normalne raspodele.

12 of 16

Rezultati

  • utvrditi da li je model linearne regresije dobar za vaše podatke;
  • razumeti koeficijente regresionog modela
  • praviti predviđanja zavisne varijable na osnovu vrednosti nezavisne varijable

cholesterol = b0 + (b1 x time_tv)

cholesterol = -0.944 + (0.037 x time_tv)

predicted cholesterol concentration = -0.944 + (0.037 x 180) = 5.72 mmol/L

13 of 16

Izveštavanja

  • Prosečno dnevno vreme provedeno gledajući TV objasnilo je 12,9% varijacije u koncentraciji holesterola, sa prilagođenim R² = 12,0%, što predstavlja srednje veliki efekat prema Cohenu (1988).

  • Prosečno dnevno vreme provedeno gledajući TV statistički značajno predviđa koncentraciju holesterola, F (1, 97) = 14,40, p < .001.

  • Predviđanja su izvršena kako bi se odredila prosečna koncentracija holesterola kod osoba koje su dnevno u proseku gledale TV 160, 170 i 180 minuta. Za 160 minuta, predviđena prosečna koncentracija holesterola iznosila je 4,98 mmol/L, 95% CI [4,73, 5,23]; za 170 minuta predviđena je 5,35 mmol/L, 95% CI [5,24, 5,45]; a za 180 minuta predviđena je 5,72 mmol/L, 95% CI [5,53, 5,90].

14 of 16

Izveštavanja

Izvršena je linearna regresija kako bi se razumeo uticaj prosečnog dnevnog vremena provedenog gledajući TV na koncentraciju holesterola. Da bi se procenila linearnost, nacrtan je dijagram raspršenja koncentracije holesterola u odnosu na prosečno dnevno vreme gledanja TV-a, sa nacrtanom regresionom linijom. Vizuelnim pregledom ovih dijagrama uočena je linearna veza između varijabli. Postojala je homoskedastičnost i normalnost reziduala. Jedan učesnik je identifikovan kao autlajer sa koncentracijom holesterola od 7,98 mmol/L. On je uklonjen iz analize jer nije predstavljao ciljnu populaciju.

Jednačina predviđanja glasi:

koncentracija holesterola = -0,94 + 0,03697 × vreme

Prosečno dnevno vreme gledanja TV-a statistički značajno predviđa koncentraciju holesterola, F(1, 97) = 14,39, p < .001, objašnjavajući 12,9% varijacije u koncentraciji holesterola sa prilagođenim R² = 12,0%, što predstavlja srednje veliki efekat prema Cohenu (1988). Svaka dodatna minuta prosečnog dnevnog vremena gledanja TV-a dovodi do povećanja koncentracije holesterola za 0,037 mmol/L, 95% CI [0,018, 0,056].

Predviđanja su izvršena kako bi se odredila prosečna koncentracija holesterola kod osoba koje su dnevno gledale prosečno 160, 170 i 180 minuta TV-a:

  • za 160 minuta, predviđena prosečna koncentracija holesterola iznosi 4,98 mmol/L, 95% CI [4,73, 5,23];
  • za 170 minuta, predviđena je 5,35 mmol/L, 95% CI [5,24, 5,45];
  • za 180 minuta, predviđena je 5,72 mmol/L, 95% CI [5,53, 5,90].

15 of 16

Pretpostavke

  1. Veličina uzorka (N > 50 + 8m)
  2. Nezavisnost reziduala
  3. Linearnost
  4. Homoskedastičnost
  5. Multikolinearnost
  6. Autlejeri
  7. Normalnost

16 of 16

Multipla linearna regresija

predicted VO2max = b0 + (b1 x age) + (b2 x weight) + (b3 x heart_rate) + (b4 x gender)

predicted VO2max = 87.83 – (0.165 x age) – (0.385 x weight) – (0.118 x heart_rate) + (13.208 x gender)

predicted VO2max = 87.83 - (0.165 x 30) - (0.385 x 80) - (0.118 x 133) + (13.208 x 1) = 49.59 ml/min/kg

  • za celokupni model iznosio je 57,7%, sa prilagođenim R² = 55,9%, što predstavlja veliki efekat prema Cohenu (1988).

  • Starost, težina, puls i pol statistički značajno predviđaju VO₂max, F(4, 95) = 32,393, p < .001.