��SURF reading group��Week 5 발표���송승은, 양준호
Chapter 2
- 무시가능성(ignorability)
MAR
무시가능성(Ignorability)?
V=0 이라면, 소득수준과 응답 사이엔 관계가 없음
(Ri: 응답 여부를 기록하는 이진 변수)
(Ri=1, 소득에 대해 응답할 확률)
Gamma=0 이면, 소득과 응답 확률은 관계 없음
응답 여부가 소득에 영향을 받는가?, 이때, F()는 cdf함수
응답 여부가 소득 수준을 결정하는가?
(결과는 4장에 있음)
기본적인 분석을 위한 수식
Copula?
GPT의 응답 : 어려움
나름 쉬운 설명:
코드 출처: Github - DirtyQuant
선은 OLS, 이변량 정규 분포, X와 Y가 각각 정규분포 / 서로 correlation : 0.8 로 지정
Joint distribution (결합 분포)
Marginal distribution (주변 분포)
0.8로 correlation 유지됨
0.8로 correlation 유지됨, (ppf? 누적분포함수의 역함수(quantile function), 감마 분포로 지정)
유저가 쇼핑몰에서 시간을 보내는 분포를 모델링한다면? – Gamma 분포(가정)
유저가 쇼핑몰에서 돈을 쓰는 분포를 모델링하면? – Beta 분포 (가정)
대표성을 잃은 OLS
왜곡된 Correlation
분포를 CDF 변환
(일종의 적분)
분포 값의 순서를 유지하면서, 값이 뽑히는 확률을 동일하게 만듦
-> Uniform distribution
확률 정보는 지웠으나 ‘순위 의존성(Rank dependence)’는 유지
여전히 노란 점이 핑크색 점보다 멀리 있으나, 두 점은 같은 확률을 가진다
CDF 변환
변량이 충분히 컸으면, 수평선이 됐을 것
같은 작업 반복
더 나은 OLS
잘 측정된 Correlation
각 데이터들의 상대적 위치는 아까와 같음, 상관계수만 보정된 결과 (일종의 표준화
데이터 개별 분포 (Marginal distribution)가 어떻든 순위 의존성(Rank dependence)과 분리할 수 있음
Copula?
개별 분포를 바꿔 기존과 달리 실제 correlation에 가까운 값을 내는 것을 함께 보았음
(Rank dependence=Monotonic dependence)
Correlation을 보정하였으나 순위 정보는 남길 수 있었음 -> 확률적 요소는 제거하고 순위 정보만 남겼음