기사를 통한
코로나 나라별 대응분석
텍스트및오피니언마이닝
박성현 2017204083
김주한 2017204047
이영우 2017204064
노준석 2019204095
목차
CONTENTS
01
주제 및 목표
02
데이터 수집 및 전처리
03
텍스트 마이닝 알고리즘
모델링 및 분석
04
결론 및 평가
01
주제 및 목표
주제 및 목표
01
배경
뉴스터치 : http://www.newstouch.site/news/articleView.html?idxno=6919
한겨레 : https://www.hani.co.kr/arti/society/health/973904.html
배경
동아: https://www.donga.com/news/Inter/article/all/20200610/101445910/1
주제 및 목표
01
주제 : 나라별 코로나 대응분석
목표
2. 상대적으로 우수한 나라와 비교해서 부족한 점을 짚고, 현 상황의 대한민국이 극복할 수 있는 방법을 제시
블룸버그가 매달 집계하는 ‘코로나19 회복력 순위(Covid Resilience Ranking)’에서 4월 말 기준 한국이 평가 대상 53개국에서 6위를 자치
출처:https://www.vop.co.kr/A00001572117.html
주제 및 목표
01
한국포함 뉴질랜드, 이스라엘, 대만 선정
뉴질랜드, 대만은 백신 접종률이 낮음에도
어떻게 회복률이 더 높은가?
이스라엘의 높은 백신 접종률이 회복률에
큰 영향을 주었을까?
블룸버그가 매달 집계하는 ‘코로나19 회복력 순위(Covid Resilience Ranking)’에서 4월 말 기준 한국이 평가 대상 53개국에서 6위를 자치
출처:https://www.vop.co.kr/A00001572117.html
주제 및 목표
01
02
데이터 수집 및 전처리
데이터 수집 및 전처리
02
<데이터 수집>
데이터 수집 : 웹 크롤링을 통한 기사 텍스트 수집
크롤링: 파이썬 라이브러리 Beautifulsoup을 사용
제목과 간략한 기사내용 텍스트 추출
네이버에 코로나 + ‘나라이름’ 키워드로 검색
카테고리 → 뉴스
데이터 수집 및 전처리
02
데이터 수집 및 전처리
02
URL기간, 페이지 → 반복적인 특징 → for문 사용 → 반복적인 크롤링
주기 : 일주일
초반(2020년 2~6월), 중반(2020년 7월~11월), 후반(2020년 12월 ~ 2021년 4월)
데이터 수집 및 전처리
02
<데이터 전처리> - 노이스캔슬링
한글을 제외한 특수문자나 ,.‘” 등 제거
데이터 수집 및 전처리
02
<데이터 전처리> - 토크나이징
파이썬 라이브러리 KoNLPy
데이터 수집 및 전처리
02
<데이터 전처리> - 어휘분석, 불용어처리, 텍스트 벡터화
품사 태깅 -> 명사추출
특정 모델에서 모델링 전 불용어 처리
텍스트 벡터화 : 모델링시 자동으로 벡터화
데이터 수집 및 전처리
02
03
텍스트 마이닝 알고리즘
모델링 및 분석
텍스트 마이닝 알고리즘 모델링과 분석
03
긍정이 급증하는 월
→ 코로나를 어떻게 잘 대처하였는지 분석 가능
부정이 급증하는 월
→ 어떠한 요인으로 코로나가 급증하였는지 분석가능
<모델링>-감성분석
모든 나라가 시간이 지남에 따라 긍정↑, 부정↓
전체적인 흐름으로는 나라별 대응을 평가 및 분석 어려움
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
한국
긍정급증 2020년 4월
한국의 4월은 거리두기와 함께 많은 코로나 검사를 진행
조기에 확산을 방지했고 일시적으로 극복
텍스트 마이닝 알고리즘 모델링과 분석
03
한국
부정급증 2020년 12월
한국의 12월은 코로나가 재 확산되면서 부정적인 키워드가 급증
‘확산’과 ‘코로나바이러스’ 키워드가 눈에 띄는 것을 확인
→ 3차 대유행 시작
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
긍정급증 2021년 2월
뉴질랜드
2021년 2월, 뉴질랜드에서는 '청정' 키워드를 중심으로 긍정 키워드가 급증
방역과 백신을 통해 이끌어낸 결과라고 할 수 있다.
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
부정급증 2020년 7월
뉴질랜드
2020년 7월, 뉴질랜드에서는 '방역'을 중심으로 부정적인 키워드가 급증
코로나가 확산되는 상황을 방역을 통해 완화시키려는 시도가 보인다.
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
대만
긍정급증 2020년 6월
6월은 해외 차단이라는 키워드로 국내의 확산을 막아내면서 싱가포르와 함께 방역 우수국가로 많이 언급되면서 긍정적인 요소 증가
해외 유입 차단이 우수한 방역 중 하나임을 알 수 있다.
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
부정급증 2020년 12월
대만
12월, 전 세계적으로 변이 바이러스의 영향으로 부정적인 키워드가 급증
그에 따라 더 강력하게 차단하는 방역조치가 돋보였다.
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
이스라엘
긍정급증 2021 1월
2021년 1월, 이스라엘에서는 긍정적인 키워드가 급증
'접종'과 '백신' 키워드가 중심
백신을 확보하고 접종에 시작하였음을 알 수 있다.
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
이스라엘
부정급증 2020년 4월
2020년 4월, 이스라엘에서는 부정적인 키워드가 급증
'금지' 키워드를 중심으로 이스라엘이 외국인 입국 및 코로나 확산을 금지하고 제한했음을 알 수 있다.
텍스트 마이닝 알고리즘 모델링과 분석
03
<모델링>- 의미연결망 분석(Semantic Network Analysis, SNA)
04
결과 및 평가
결론 및 평가
04
결론
통제되는지에 따라 결과가 갈리게 되었다.
2. 대만, 뉴질랜드는 입국제한을 통해 현재까지 좋은 결과를 유지하고 있지만, 대한민국은 4월 국내 확진자 0명 이후
입국제한이 일부 해제된 지금까지 코로나 확산세를 잡지 못하고 있다.
3. 국내 확산세를 잡기 위해서는 입국제한을 강하게 진행시키고 안심할 수 있는 미래를 위해서는 백신 확보가 되어야
코로나 사회를 해결할 수 있다.
기대효과
대한민국의 현 코로나 상황을 억제하고 끝낼 수 있는 해결책을 제시해 줄 수 있다.
결론 및 평가
04
평가
아쉬운 점
1. LDA를 구현했지만 결과해석에 한계가 있어 결과물로 사용하지 못한 점
2. 여러 기사 본문을 긁어오기에 한계가 있어, 요약된 내용만 크롤링한 점
추후 개선점
1. 더욱 다양한 모델링 및 분석을 통한 더 정확한 결과 도출 필요
2. 검색어를 다양하게 사용하는 방법 필요
3. 다양한 검색엔진과 언론사의 본문 크롤링 필요
결론 및 평가
04
감사합니다.
THANK YOU