1 of 18

��SURF reading group��Week 5 발표���송승은, 양준호

2 of 18

Chapter 2

- 무시가능성(ignorability)

MAR

3 of 18

무시가능성(Ignorability)?

4 of 18

V=0 이라면, 소득수준과 응답 사이엔 관계가 없음

(Ri: 응답 여부를 기록하는 이진 변수)

(Ri=1, 소득에 대해 응답할 확률)

Gamma=0 이면, 소득과 응답 확률은 관계 없음

응답 여부가 소득에 영향을 받는가?, 이때, F()는 cdf함수

응답 여부가 소득 수준을 결정하는가?

(결과는 4장에 있음)

기본적인 분석을 위한 수식

5 of 18

Copula?

6 of 18

GPT의 응답 : 어려움

7 of 18

나름 쉬운 설명:

코드 출처: Github - DirtyQuant

선은 OLS, 이변량 정규 분포, X와 Y가 각각 정규분포 / 서로 correlation : 0.8 로 지정

8 of 18

Joint distribution (결합 분포)

Marginal distribution (주변 분포)

0.8로 correlation 유지됨

9 of 18

0.8로 correlation 유지됨, (ppf? 누적분포함수의 역함수(quantile function), 감마 분포로 지정)

유저가 쇼핑몰에서 시간을 보내는 분포를 모델링한다면? – Gamma 분포(가정)

10 of 18

유저가 쇼핑몰에서 돈을 쓰는 분포를 모델링하면? – Beta 분포 (가정)

11 of 18

대표성을 잃은 OLS

왜곡된 Correlation

12 of 18

분포를 CDF 변환

13 of 18

(일종의 적분)

분포 값의 순서를 유지하면서, 값이 뽑히는 확률을 동일하게 만듦

-> Uniform distribution

확률 정보는 지웠으나 ‘순위 의존성(Rank dependence)’는 유지

여전히 노란 점이 핑크색 점보다 멀리 있으나, 두 점은 같은 확률을 가진다

CDF 변환

14 of 18

변량이 충분히 컸으면, 수평선이 됐을 것

15 of 18

같은 작업 반복

16 of 18

더 나은 OLS

잘 측정된 Correlation

각 데이터들의 상대적 위치는 아까와 같음, 상관계수만 보정된 결과 (일종의 표준화

17 of 18

데이터 개별 분포 (Marginal distribution)가 어떻든 순위 의존성(Rank dependence)과 분리할 수 있음

Copula?

개별 분포를 바꿔 기존과 달리 실제 correlation에 가까운 값을 내는 것을 함께 보았음

(Rank dependence=Monotonic dependence)

Correlation을 보정하였으나 순위 정보는 남길 수 있었음 -> 확률적 요소는 제거하고 순위 정보만 남겼음

18 of 18