1
중국 기업의 자연어처리 기술 이야기
2021.11.17 18:00 데이터 제작 NLP Office Hour
진행 : 김재인
2
발표자 소개
3
가깝지만 생소한 중국 - 중국의 AI 기술은 어디까지 왔을까?
4
중국의 AI 연구는 어느 정도 수준일까?
https://www.theverge.com/2019/3/14/18265230/china-is-about-to-overtake-america-in-ai-research
5
중국의 AI 연구 개발 투자 금액은?
https://news.kotra.or.kr/user/globalAllBbs/kotranews/album/781/globalBbsDataAllView.do?dataIdx=190560&column=&search=&searchAreaCd=&searchNationCd=&searchTradeCd=&searchStartDate=&searchEndDate=&searchCategoryIdxs=&searchIndustryCateIdx=&searchItemName=&searchItemCode=&page=3&row=10
6
중국의 대표 AI 기업
7
Product에 적용된 NLP 기술
8
Product에 적용된 NLP 기술
Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션
9
Product에 적용된 NLP 기술
Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션
10
Product에 적용된 NLP 기술
Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션
11
Product에 적용된 NLP 기술
Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션
12
Product에 적용된 NLP 기술
샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework
13
Product에 적용된 NLP 기술
샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework
14
Product에 적용된 NLP 기술
샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework
15
Product에 적용된 NLP 기술
샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework
16
Product에 적용된 NLP 기술
쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼
17
Product에 적용된 NLP 기술
쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼
18
Product에 적용된 NLP 기술
쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼
19
Product에 적용된 NLP 기술
쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼
Transformer 정리
"프로그래머가 경제적 자유를 얻으려면?"에 대한 토론
"집값이 현대사회 청년들에게 얼마나 부담이 되는가"에 대한 토론
20
Product에 적용된 NLP 기술
쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼
21
Product에 적용된 NLP 기술
Wechat (Tencent) : 중국의 대표 메신저
22
Product에 적용된 NLP 기술
Wechat (Tencent) : 중국의 대표 메신저
23
Product에 적용된 NLP 기술
Wechat (Tencent) : 중국의 대표 메신저
24
Product에 적용된 NLP 기술
Wechat (Tencent) : 중국의 대표 메신저
25
Product에 적용된 NLP 기술
Wechat (Tencent) : 중국의 대표 메신저
26
Product에 적용된 NLP 기술
Wechat (Tencent) : 중국의 대표 메신저
27
어떻게 빠른 시간에 발전했을까
28
어떻게 빠른 시간에 발전했을까
단순히 사람이 많아서일까?
베이징 도심
성수기 만리장성
29
어떻게 빠른 시간에 발전했을까
인력
30
어떻게 빠른 시간에 발전했을까
인력
난징재경대학교 도서관 앞
31
어떻게 빠른 시간에 발전했을까
인력
32
어떻게 빠른 시간에 발전했을까
인력
33
어떻게 빠른 시간에 발전했을까
인력
징동 200만 고연봉 기술직 신입, 화웨이 천재 소년 고용 프로그램 연봉과 비슷하다
34
어떻게 빠른 시간에 발전했을까
사내문화
35
어떻게 빠른 시간에 발전했을까
사내문화
36
어떻게 빠른 시간에 발전했을까
사내문화
37
어떻게 빠른 시간에 발전했을까
????
사내문화
38
어떻게 빠른 시간에 발전했을까
사내문화
39
어떻게 빠른 시간에 발전했을까
데이터
40
어떻게 빠른 시간에 발전했을까
데이터
41
어떻게 빠른 시간에 발전했을까
데이터
위챗 2019년도 데이터 보고서
active user: 11.5억
전년 대비 성장률 6%
End of Document
Thank You.
43
데이터 공장의 하루:
왜, 어떻게, 얼마나 좋게 만들 것인가?
2021.11.17 18:00 데이터 제작 NLP Office Hour
진행 : 조원익
44
INDEX
1. 데이터 구축의 동기
2. 어떻게 만들 것인가?
3. 시행착오와 배운 점들
조원익
45
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
46
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
47
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
48
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
49
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
50
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
51
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
그래서… 그런 데이터가 존재하는가?
52
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
그래서… 그런 데이터가 존재하는가?
내가 원하는 언어로, 내가 원하는 양식으로 존재하는가?
53
1. 데이터 구축의 동기
무언가를 하고 싶다 (or 무언가를 해야 한다!)
그래서… 그런 데이터가 존재하는가?
내가 원하는 언어로, 내가 원하는 양식으로 존재하는가?
없다면, 어떻게 만들 것인가?
54
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
55
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
태스크: 혐오 표현 감지
56
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
57
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
58
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
59
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
60
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
61
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
62
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
63
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
64
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
태스크: 혐오 표현 감지
65
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
태스크: 혐오 표현 감지
구축 가이드라인 ~ 설계 도면 ~ 명세서
66
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
태스크: 혐오 표현 감지
구축 가이드라인 ~ 설계 도면 ~ 명세서
Offensive
67
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
68
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
연구 진행자
작업자
중간 관리자
69
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
70
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
연구 초기 파일럿 태깅 +
가이드라인
71
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
연구 초기 파일럿 태깅 +
가이드라인
업체 선정 +
업체 파일럿 +
작업자 선정
72
2. 어떻게 만들 것인가?
데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)
연구 초기 파일럿 태깅 +
가이드라인
업체 선정 +
업체 파일럿 +
작업자 선정
가이드라인 업데이트 +
작업자 태깅 +
퀄리티체크 +
데이터 분배
73
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
74
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
75
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
76
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
77
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
78
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
79
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
80
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
81
3. 시행착오와 배운 점들
곳곳에서 다양한 이슈들이 발생!
82
3. 시행착오와 배운 점들 - Takeaway
AI에서의 데이터 과학 - 데이터를 구축/분석하고 모델 개발과의 bridge를 놓는 것
End of Document
Thank You.