평균과 표준편차의 이해
 Share
The version of the browser you are using is no longer supported. Please upgrade to a supported browser.Dismiss

 
View only
 
 
ABCDEFGHIJKLMNOPQRSTUVWXYZAAAB
1
표본 집단의 추출
(분석하려는 데이터가 많을 땐, 그 중 일부를 표본으로 추출한다. 추출 방법엔 여러가지가 있는데 보통 랜덤 추출 방식을 사용한다고 한다)
2
3
평균과 표준편차
(평균과 표준편차로 '얼마나 들쭉날쭉한가?'를 알 수 있다)
4
각 사원의 연봉
(변량 X)
정규분포값
(Z)
정규누적분포
5
5,6000.1154.42%
(정규분포값 Z는 변량 X를 '정규분포 표준화'를 통해 가져온 값이다. 그래프의 X축에 해당하는 값이다)
6
4,300-0.6326.45%
(정규누적분포는 정규분포그래프에서 Z값 위치까지의 면적이다. 누적분포는 전체를 1로 보고 0에서 Z값까지를 구한다. 이 값으로 확률을 구할 수 있다)
7
2,700-1.546.16%
8
3,900-0.8619.56%
9
6,7000.7476.97%
10
8,8001.9397.35%
11
4,300-0.6326.45%
12
5,4000.0049.89%
13
7,6501.2889.96%
14
4,700-0.4034.40%
15
평균 (μ)5,4050.0050.00%
(평균값은 μ로 쓰고 '뮤'라고 읽는다. 평균값의 Z값은 0이고, 정규누적분포는 50%이다)
16
표준편차 (σ)1755.06
(표준편차는 σ로 쓰고 '시그마'라고 읽는다. 표본집단이 30개 이내로 적은 경우엔 표본표준편차를 사용하면 된다)
17
중앙값5,050
(모든 데이터의 가운데 값. 평균의 경우 극단값의 영향을 받기 때문에 실태를 파악할 때 중앙값을 사용하기도 한다)
18
19
히스토그램
(먼저 변량의 분포를 확인해본다. 어떤 분포를 갖는가? 종 모양이라면 표준정규분포를, 다른 모양이라면 다른 모양의 분포를 사용해 분석해볼 수 있다. 기존 분포 모델을 사용하는 건, 이미 정립되어 있어 분석하기 편하기 때문이다)
20
21
22
23
24
25
26
27
28
29
표준정규분포
(가우스분포)
(정규화를 통해 쉽게 특정 구간의 확률을 계산할 수 있다)
(표준정규분포는 데이터가 '종 모양의 형태로 분포할 것이다'라는 가설로 적용하는 것이다. 실제 종모양 형태의 분포가 아니라면 오차율이 클 수 밖에 없다. 이럴 땐 다른 종류의 분포를 사용해야 한다)
30
μ ± 1σ (34.1%)3,6507,160
(이 범위 안에 68.2%가 존재함)
31
μ ± 2σ (13.6%)1,8958,915
(이 범위 안에 95.4%가 존재함)
32
μ ± 3σ (2.1%)14010,670
(이 범위 안에 99.6%가 존재함)
33
34
분포 확률 계산
(정규분포와 같이 연속확률분포는 그 특성 상, 일정 범위의 확률을 구하는 데 사용하는 경우가 많다)
35
연봉이40006000사이에 존재할 확률은
36
누적분포가21.17%63.27%이므로,42.10%이다.
37
38
궁금한 것들
39
- 표본 표준편차 (STDEV) 식에서 표본을 취하는 방식은 어떤 것인가?
40
- 실제로 정규분포 안에 존재하지 않는 값도 있다. 오차는 어떤 식으로 처리해야할까? -> 표준 형태로 분포할 것이라는 가설이 틀렸다.
41
- 가설이 틀렸다곤 해도, (예를 들어, 단순증가형 분포라고 해도) 정규분포로 적용했을 때 값의 범위는 맞는 것 같다. 확률이 틀린 건가?
42
- 데이터 분석의 시작이 뭔지 모르겠다. 가설이 먼저일까? 데이터가 있으면 히스토그램을 그릴 수 있지 않나?
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
Loading...
 
 
 
표준정규분포