고등학교
데이터 분석 캠프
3_학생 대상 디지털 문해교육
고등 과정
01
데이터의 이해와 분석
02
데이터 분석1 with 오렌지3
03
데이터 분석2 with 오렌지3
04
데이터 분석으로 예측하기
05
데이터 분석 프로젝트
고등 과정
고등학교 데이터 분석 캠프
학습목차
01
데이터의
이해와 분석
1차시
고등 과정
고등학교 데이터 분석 캠프
4
데이터(data)
인터넷에서 60초 동안 일어나는 일. 도모(2021).
https://quasarzone.com/bbs/qn_hardware/views/1765039
그림1
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
5
빅데이터
전 세계 데이터 생성, 캡처, 복제, 소비량 변화(2010~2025, 단위:제타바이트).�https://www.datanet.co.kr/news/articleView.html?idxno=166457
데이터 용량 단위.�https://brunch.co.kr/@grandmer/410
그림2
그림3
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
6
빅데이터의 특징
빅데이터의 특징. 고등학교 정보(천재, 55p)
그림4
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
7
데이터 분석 단계
데이터 분석 단계. 고등학교 소프트웨어와 생활(p81, 삼양미디어)
→ 데이터 간의 상관관계, 경향성 등 유의미한 정보를 발견
그림5
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
8
데이터 수집 사이트 예시
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
9
데이터 분석 주요 단계 - 데이터 전처리
다양한 통계 지표. 고등학교 정보(천재, 59p)
그림6
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
10
[예] 박스 플롯을 이용한 데이터 이상치 확인하기
데이터 분석 주요 단계 - 데이터 전처리
강수량 데이터 이상치 확인. 고등학교 정보(천재, 59p)
그림7
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
11
데이터 분석 주요 단계 - 시각화 유형 및 분석
시각화 유형 및 분석 예시. 고등학교 정보(천재, 60p)
그림8
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
12
데이터 분석 주요 단계 - 시각화 유형 및 분석
시각화 유형 및 분석 예시. 고등학교 정보(천재, 60p)
그림9
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
13
데이터 분석 주요 단계 - 시각화 유형 및 분석
시각화 유형 및 분석 예시. 고등학교 정보(천재, 60p)
그림10
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
14
미션 - 최고의 야식 3대장 분석하기
한국인이 사랑하는�최고의 야식 3대장을�찾아보자.
요기요로 본 데이터 ‘최고의 야식’.�https://partner.yogiyo.co.kr/content/view/%EC%9A%94%EA%B8%B0%EC%9A%94_%EB%B0%B0%EB%8B%AC_%EC%95%BC%EC%8B%9D_�%EC%A3%BC%EB%AC%B8_%EB%8D%B0%EC%9D%B4%ED%84%B0
그림11
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
15
미션 - 최고의 야식 3대장 분석하기
구글 트렌드 홈페이지. 자체 캡처�(https://trends.google.com/trends)
그림12
네이버 데이터랩. 자체 캡처�(https://datalab.naver.com/)
그림13
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
16
미션 - 최고의 야식 3대장 분석하기
구글 트렌드 검색, 자체 캡처�(https://trends.google.com/trends)
그림14
네이버 데이터랩 검색, 자체 캡처�(https://datalab.naver.com/)
그림15
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
02
데이터 분석1
with 오렌지3
2차시
고등 과정
고등학교 데이터 분석 캠프
18
오렌지3
오렌지 홈페이지. 자체 캡처�https://orangedatamining.com/
그림16
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
19
오렌지3 - 추가 설치(add - on)
오렌지3 Add-on 설치. 자체 캡처(오렌지3)
그림17
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
20
데이터 분석용 데이터구조
연번 | 이름 | 키 | 몸무게 |
1 | 김00 | 170 | 75 |
2 | 최00 | 175 | 65 |
3 | 박00 | 180 | 130 |
검사자 | 1 | 2 | 3 |
이름 | 김00 | 최00 | 박00 |
키 | 170 | 175 | 180 |
시력(좌) | 1.5 | 1 | 0.7 |
데이터 구조. 자체 제작
표1
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
21
포유류 데이터 분석(Mammal.csv)
포유류 데이터셋. 자체 캡처(스프레드시트)
표2
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
22
포유류 데이터 속성
Mammals.csv 데이터 속성. 자체제작
표3
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
23
포유류 데이터 질문
Mammals 데이터에 대한 질문. 자체 캡처�https://concord.org/wp-content/uploads/2016/12/codap/embed/mammals.html
그림18
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
24
포유류 데이터 불러오기
데이터 블러오기. 오렌지 자체 캡처
그림19
데이터 다운로드 사이트
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
25
1. 가장 수명이 긴 포유류는 무엇인가요?� 가장 수명이 짧은 포유류는 무엇인가요?
포유류 데이터 질문1
데이터 블러오기. 오렌지 자체 캡처
그림20
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
26
포유류 데이터 질문2
2. Gray Seal(회색물범)의 식성은 무엇인가요?� 그리고 그 서식지는 어디인가요?
데이터 블러오기. 오렌지 자체 캡처
그림21
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
27
포유류 데이터 질문3
3. 식물만 먹는 포유류는 몇 종이나 되나요?� 이 중에서 수명이 가장 짧은 포유류는 무엇인가요?
데이터 블러오기. 오렌지 자체 캡처
그림22
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
28
포유류 데이터 질문4-1
4-1. 고기만 먹는 포유류 중에서 수명이 가장 긴 포유류는 무엇인가요?
4-2. 육식만 하고, 육지에서만 사는 포유류 중에서 수명이 가장 긴 포유류는 무엇인가요?
데이터 블러오기. 오렌지 자체 캡처
그림23
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
29
포유류 데이터 질문4-2
4-1. 고기만 먹는 포유류 중에서 수명이 가장 긴 포유류는 무엇인가요?
4-2. 육식만 하고, 육지에서만 사는 포유류 중에서 수명이 가장 긴 포유류는 무엇인가요?
데이터 블러오기. 오렌지 자체 캡처
그림24
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
30
포유류 데이터 질문5
5-1. 재규어(Jaguar)의 수명은 얼마인가요?
5-2. 재규어와 같은 수명을 가진 다른 포유류는 무엇인가요?
데이터 블러오기. 오렌지 자체 캡처
그림25
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
31
포유류 데이터 질문6
bin width = 5
로 인해 오답!!
6. 가장 자주 나오는(가장 흔한) 수명은 얼마인가요?
이 수명을 가진 포유류는 어떤 것들이 있나요?
데이터 블러오기. 오렌지 자체 캡처
그림26
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
32
데이터 유형
이산형 데이터 : 다리의 개수, 성공 횟수
연속형 데이터 : 키, 체중
수치형 데이터
범주형 데이터
명목형 데이터 : 혈액형(A, B, O, AB)
순서형 데이터 : 나쁨, 보통, 좋음
(1, 2, 3)
이산형 → 명목형 데이터로 변경
데이터 유형과 사례. 중학교 인공지능고 미래사회(35~36)
그림27
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
33
포유류 데이터 질문6 - 개선
6. 가장 자주 나오는(가장 흔한) 수명은 얼마인가요?
이 수명을 가진 포유류는 어떤 것들이 있나요? (숫자 속성 → 범주 속성)
데이터 블러오기. 오렌지 자체 캡처
그림28
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
34
[예시] 4-1. 고기만 먹는 포유류 중에서 수명이 가장 긴 포유류는 무엇인가요?
데이터 분석 주요 단계 - 데이터 전처리
데이터 블러오기. 오렌지 자체 캡처
그림29
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
03
데이터 분석2
with 오렌지3
3차시
고등 과정
고등학교 데이터 분석 캠프
36
붓꽃(iris) 품종 분류 데이터 분석
로널드 피셔가 1936년 논문에서 사용한 데이터셋으로 붓꽃 품종을 분류하기 위한 �150개의 데이터로 꽃받침(Sepal)과 꽃잎(Petal)의 길이와 너비로 3종의 품종을 구분
iris 데이터셋.�https://velog.io/@ppippi/DAY12-%EC%B2%AB%EB%B2%88%EC%A7%B8-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%B6%84%EC%84%9D-�Iris-Dataset
그림30
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
37
붓꽃(iris) 데이터 불러오기
데이터 블러오기. 오렌지 자체 캡처
그림31
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
38
붓꽃 데이터 질문
붓꽃 품종.�ttps://crazydeer.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%EC%9D%98-%EC%A2%85%EB%A5%98%EC%99%80-�%ED%8D%BC%EC%85%89%ED%8A%B8%EB%A1%A0Perceptron%EC%9D%98-%EC%97%AD%EC%82%AC%EC%99%80-%EC%98%88
그림32
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
39
다양한 시각화 도구
대표적인 그래프.�https://m.blog.naver.com/biz_data/221734663222
그림33
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
40
다양한 시각화 도구
대표적인 그래프.�https://m.blog.naver.com/biz_data/221734663222
그림34
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
41
다양한 시각화 도구
대표적인 그래프.�https://m.blog.naver.com/biz_data/221734663222
그림35
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
42
다양한 시각화 도구
대표적인 그래프.�https://m.blog.naver.com/biz_data/221734663222
그림36
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
43
붓꽃 데이터 질문
1-1. (barplot) 품종에 따른 꽃잎, 꽃받침 분포 비교
데이터 블러오기. 오렌지 자체 캡처
그림37
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
44
붓꽃 데이터 질문
2. (scatter plot) 품종 확인을 위한 핵심 속성 찾기
데이터 블러오기. 오렌지 자체 캡처
그림38
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
45
붓꽃 데이터 질문
2. (scatter plot) 품종 확인을 위한 핵심 속성 찾기
데이터 블러오기. 자체 캡처
그림39
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
46
포유류 데이터 질문2
상관관계(Correlation)
데이터 분석에서 두 변수 간의 관계
https://restartstudies.tistory.com/24
3. (corrleation) 품종 확인을 위한 핵심 속성 찾기
데이터 블러오기. 오렌지 자체 캡처
그림40
상관계수와 분포.�https://ablearn.kr/newsletter/?bmode=view&idx=13552419
그림40
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
47
포유류 데이터 질문3
4. 다양한 시각화 방법 - 의사결정 트리
데이터 블러오기. 오렌지 자체 캡처
그림41
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
04
데이터 분석으로 �예측하기
4차시
고등 과정
고등학교 데이터 분석 캠프
49
BMI 예측
체질량지수 계산식 및 판정기준.�https://www.tongyeong.go.kr/health/01635/01898/01902.web
그림42
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
50
BMI 데이터셋
체질량지수 데이터셋.�https://www.kaggle.com/datasets/freego1/BMI-data
그림43
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
51
BMI 데이터셋
체질량지수 데이터셋
그림44
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
52
BMI 예측 전체 워크플로우
전체 워크플로우. 오렌지 자체 캡처
그림45
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
53
BMI 데이터 불러오기
데이터 블러오기. 오렌지 자체 캡처
그림46
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
54
속성의 기초 통계값 확인
기초 통계값 확인. 오렌지 자체 캡처
그림47
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
55
인치, 파운드 → cm, kg 변경
기초 통계값 확인. 오렌지 자체 캡처
그림48
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
56
인치, 파운드 속성 배제
속성 선택. 오렌지 자체 캡처
그림49
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
57
변경된 파일 저장
추후 데이터를 예측할 때
활용하며, 중간 데이터를 저장할 때 사용됨
데이터 중간 저장. 오렌지 자체 캡처
그림50
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
58
데이터 나누기(학습용, 테스트용)
학습용 70%
테스트용 30%로 나눔
데이터 나누기. 오렌지 자체 캡처
그림51
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
59
학습 및 평가(회귀)
학습 및 평가. 오렌지 자체 캡처
그림52
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
60
예측(회귀)
예측. 오렌지 자체 캡처
그림52
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
61
랜덤포레스트으로 새로운 값 예측(회귀)
새로운 값 예측. 오렌지 자체 캡처
그림53
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
62
랜덤포레스트으로 새로운 값 예측(회귀)
새로운 값 예측. 오렌지 자체 캡처
그림54
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
05
데이터 분석 프로젝트
5차시
고등 과정
고등학교 데이터 분석 캠프
64
데이터 분석 단계
데이터 분석 단계. 고등학교 소프트웨어와 생활(p81, 삼양미디어)
→ 데이터 간의 상관관계, 경향성 등 유의미한 정보를 발견
그림55
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
65
프로젝트 결과 발표 내용
데이터셋 수집 및 전처리
데이터 시각화
테이터 분석 결과
데이터 의미 도출 및 활용방안
문제 동기 및 문제 정의
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
66
데이터 분석 프로젝트 예시
데이터분석 주제 | 주제 |
기상 데이터를 이용한 미세먼지 예측 | 개인별 프로젝트에서 지구과학에서 배운 기상 인자와 관련된 8년 간의 데이터를 가공하여 PM10에 영향을 미치는 독립변인이 온도, 압력, 풍속, 오존 등의 순서로 나타나는 것을 랜덤 포레스트, KNN, 선형회귀 등의 알고리즘으로 회귀 분석한 결과를 발표함. |
소득수준, 행복도와 이혼률 분석 | 개인별 프로젝트에서 서울지역의 구별 행복지수, 부가가치, 인구수, 이혼율 데이터를 수집하고 시각화하여 행정구역별 특이점을 발견하고, 랜덤 포레스트 알고리즘을 이용하여 1인당 부가가치와 행복지수에 따른 이혼율을 분석하고 발표함. |
소상공인 집약도와 상권종류의 상관관계 분석 | 개인별 프로젝트에서 소상공인 데이터를 수집하여 주변 상권 지역의 학원, 카페, 교육, 오락, 유흥 업소들을 지도에 시각화하여 분포의 경향성과 서울 주요 상권의 업종을 분석하여 업종에 따른 지역을 추천하는 아이디어를 발표함. |
당구공의 움직임 예측하기 | 개인별 프로젝트에서 당구공이 충돌한 후 원하는 방향으로 보내기 위해 독립변수를 힘, 각도, 상대 공에 맞는 두께로 설정하고, 종속변수는 충돌 후 이동 거리, 충돌 후 각도를 예측하기 위해 시뮬레이션 프로그램의 입력된 힘, 각도에 따른 삼각함수 식을 입력하여 데이터를 수집하고 랜덤 포레스트 알고리즘을 이용하여 종속변수 값을 예측하고, 엑셀에서 추세선을 함수식으로 도출하는 ‘당구공 움직임 예측하기’ 프로젝트를 구현하고 발표함. |
코로나 백신 접종자에 따른 확진자 수 예측 | 개인별 프로젝트에서 백신접종과 확진자 수의 관계를 분석하기 위해 서울의 백신 2차 접종률과 확진자 데이터를 수집하여 다항 회귀를 이용하여 2차 접종률이 50% 이상부터 확진자 수가 하락하는 것을 확인하고 발표함. |
데이터 분석 프로젝트 예시, 자체 제작
표4
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
67
학생 프로젝트 예시
학생 프로젝트 예시. 자체 작성
그림56
고등학교 데이터 분석 캠프
고등 과정
찾
아
가
는
학
교
컨
설
팅
01 데이터의 이해와 분석
감사합니다.
고등 과정