1 of 20

2 of 20

3 of 20

4 of 20

5 of 20

6 of 20

7 of 20

명세오차 : “치킨을 좋아하는 사람” 설문에서, 오븐에 구운 치킨을 제외한 경우 (필요보다 협의의 정의)

측정오차 : “치킨을 좋아합니까?” -> “닭고기를 조각 내 밀가루 등을 묻혀서 튀긴 요리를 좋아합니까?” – 애매한 표현

처리오차: 응답 처리 과정에서 생긴 오차 – 직원이 잘못된 알고리즘 코딩을 한 경우

포함오차: 모집단을 충분히 반영하지 못했을 때 생기는 오차 – 성인을 추출하기 위해 휴대전화 사용자를

대상으로 조사했으나 집전화 사용자를 누락한 경우

8 of 20

할당추출법이 영향을 줄 수 있는 오차들

9 of 20

할당추출법의 기본 과정:

1. 자체 기준을 통해 계층별 목표수집량을 정한다.

여론조사번호 : 13865

(성별 / 지역별 / 연령별 등)

2. 전화번호를 무작위 입력해 응답을 목표를 채울 때까지 수집한다. (필요 이상은 버림)

10 of 20

할당추출법의 기본 과정:

1. 자체 기준을 통해 계층별 목표수집량을 정한다.

(성별 / 지역별 / 연령별 등)

2. 전화번호를 무작위 입력해 응답을 목표를 채울 때까지 수집한다. (필요 이상은 버림)

통계적 성질을 잃음
조정 오차 발생

통계 성질 쉬운 설명: 원래 대상인 응답자 A가 지속적으로 연락을 받지 않자 응답자 B에게 연락을 돌린 경우, A와 B의 확률이 서로 다르므로 Randomness를 해치게 됨. + 할당치 이상 데이터를 버리는 과정에서도 Randomness를 해치게 됨

때문에 할당추출법에서 표본 오차는 배우던 교과서적 표본 오차와 다르며, 다소 억지로 구현하게 됨.

A

B

뽑힐 확률

- 안 뽑힐 확률 X 뽑힐 확률

!=

11 of 20

할당추출법의 기본 과정:

1. 자체 기준을 통해 계층별 목표수집량을 정한다.

(성별 / 지역별 / 연령별 등)

2. 전화번호를 무작위 입력해 응답을 목표를 채울 때까지 수집한다. (필요 이상은 버림)

할당추출법이 더 싼 이유가 됨!

12 of 20

확률추출법의 기본 과정:

1. 조사자가 보유한 패널을 바탕으로 랜덤 추출

랜덤한 주소를 추첨해 조사대상을 선정하였음

2. 랜덤 추출한 대상을 변경 없이 여론 조사

(무응답이 있더라도 임의로 대상을 바꾸지 않음)

Pew research center의 설문 조사 자료

-> Randomness를 유지하게 됨

할당추출법이 더 싼 이유를 알아보기 전에..

13 of 20

확률추출법의 기본 과정:

1. 조사자가 보유한 패널을 바탕으로 랜덤 추출

2. 랜덤 추출한 대상을 변경 없이 여론 조사

(무응답이 있더라도 임의로 대상을 바꾸지 않음)

-> Randomness를 유지하게 됨

임의로 대상을 바꾸지 않기 위해 상당히 많은 패널을 구축해야함.

+ 무응답을 줄이기 위해 여러 차례 요청이 필요함

14 of 20

할당추출법은 패널 구축에 많은 노력을 들이지 않아도 됨

- 패널 구축 비용 절감 -> 더 저렴

15 of 20

다소 억지로 구현하게 됨:

16 of 20

다소 억지로 구현하게 됨:

응답률 p를 0.5로 두고, n=1000으로 두면 약 3.1%가 나오는데, 표본을 1000개가량 수집한 이후 관행적으로 3.1%라고 어림잡는 경우가 대부분

17 of 20

1

2

3

4

{1,2}

{1,3}

{1,4}

{2,3}

{2,4}

{3,4}

<단순임의추출법>

확률표본설계

18 of 20

p.2

IPW:

확률표본설계

19 of 20

판단추출법
자원자추출법
할당추출법

비확률표본설계?

20 of 20

균형추출법(제한된 임의추출법)

RDD(Random Digit Dialing)

- 균형추출법으로 이해될 수 있다