1 of 83

1

중국 기업의 자연어처리 기술 이야기

2021.11.17 18:00 데이터 제작 NLP Office Hour

진행 : 김재인

2 of 83

2

발표자 소개

  • (현) Beihang University, Knowledge Graph/Natural Language Processing 박사연구생
  • Sogou 자연어처리 연구팀 학생 인턴
  • Beihang University 컴퓨터과학 석사 졸업
  • Beihang University 컴퓨터과학 학사 졸업

3 of 83

3

가깝지만 생소한 중국 - 중국의 AI 기술은 어디까지 왔을까?

4 of 83

4

중국의 AI 연구는 어느 정도 수준일까?

https://www.theverge.com/2019/3/14/18265230/china-is-about-to-overtake-america-in-ai-research

5 of 83

5

중국의 AI 연구 개발 투자 금액은?

https://news.kotra.or.kr/user/globalAllBbs/kotranews/album/781/globalBbsDataAllView.do?dataIdx=190560&column=&search=&searchAreaCd=&searchNationCd=&searchTradeCd=&searchStartDate=&searchEndDate=&searchCategoryIdxs=&searchIndustryCateIdx=&searchItemName=&searchItemCode=&page=3&row=10

6 of 83

6

중국의 대표 AI 기업

7 of 83

7

Product에 적용된 NLP 기술

  • Sogou (搜狗)
  • 샤오빙 (Xiaoice)
  • 쯔후 (知乎)
  • 위챗 (Wechat)

8 of 83

8

Product에 적용된 NLP 기술

Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션

9 of 83

9

Product에 적용된 NLP 기술

Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션

  • 음성 입력 기능
    • 중국 표준어
    • 중국 사투리
    • 외국어

10 of 83

10

Product에 적용된 NLP 기술

Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션

  • 다국어에서 작동하는 단어 추천 알고리즘

11 of 83

11

Product에 적용된 NLP 기술

Sogou Keyboard (Sogou-Tencent) : 모바일/데스크탑 키보드 어플리케이션

  • Smart Reply 응답 추천 시스템

12 of 83

12

Product에 적용된 NLP 기술

샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework

13 of 83

13

Product에 적용된 NLP 기술

샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework

  • 음성 비서
    • Chit-chat
    • Open-domain Question Answering
    • Task-oriented Question Answering

14 of 83

14

Product에 적용된 NLP 기술

샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework

  • Super NLP (9th generation)
    • 5개의 open-domain 대화 모델 지표에서 동종 업계 가장 뛰어난 성능
    • 3가지 지표 추가
      • Naturalness MOS
      • Average Comfort Duration
      • Diversity
    • 시/음악/미술 창작 모델 (V3)

15 of 83

15

Product에 적용된 NLP 기술

샤오빙/Xiaoice (Microsoft Asia) : Avatar Framework

  • 본업 : 음성 비서 (IQ+EQ)
  • 기타 능력치
    • 텍스트 창작
      • 작사 (시, 대중가요 등)
      • 금융, 뉴스, 연구 요약
      • 시집 출간 이력
    • 소리 창작
      • 주어진 텍스트/그림으로 작곡
      • 2020 세계 인공지능 대회의 주제가 작곡 이력
    • 이미지 창작 (중앙 미술 대학원 졸업)
      • 실크 도안 디자인
      • 작품 전시 이력

16 of 83

16

Product에 적용된 NLP 기술

쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼

17 of 83

17

Product에 적용된 NLP 기술

쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼

  • 2010년 창업
  • 텐센트, 소프트뱅크로부터 투자
  • 2021년 뉴욕 증시 상장, 시가총액 4월 기준 6조 8600억원

18 of 83

18

Product에 적용된 NLP 기술

쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼

19 of 83

19

Product에 적용된 NLP 기술

쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼

Transformer 정리

"프로그래머가 경제적 자유를 얻으려면?"에 대한 토론

"집값이 현대사회 청년들에게 얼마나 부담이 되는가"에 대한 토론

20 of 83

20

Product에 적용된 NLP 기술

쯔후/知乎 (Zhihu) : 전문지식 검색 + 전문가 커뮤니티 + 유료 강의 플랫폼

  • 연관 질문/답변 추천
    • Sentence Paraphrasing
  • 토픽 개인화 추천
    • User Behavior Embedding Representation
    • User Graph
    • Content Graph

21 of 83

21

Product에 적용된 NLP 기술

Wechat (Tencent) : 중국의 대표 메신저

22 of 83

22

Product에 적용된 NLP 기술

Wechat (Tencent) : 중국의 대표 메신저

  • 2018년 월간 이용자 수가 10억명을 돌파
  • 안드로이드, iOS, Windows Phone, Windows, macOS, 웹버전 지원
  • 채팅기능 뿐만 아니라 애플릿(샤오청쉬), 위챗지갑, 동영상 피드, 공식 계정 구독 등 다양한 기능을 제공

23 of 83

23

Product에 적용된 NLP 기술

Wechat (Tencent) : 중국의 대표 메신저

  • 음성 메시지 텍스트 변환

24 of 83

24

Product에 적용된 NLP 기술

Wechat (Tencent) : 중국의 대표 메신저

  • 다국어 번역

25 of 83

25

Product에 적용된 NLP 기술

Wechat (Tencent) : 중국의 대표 메신저

  • 이미지 번역

26 of 83

26

Product에 적용된 NLP 기술

Wechat (Tencent) : 중국의 대표 메신저

  • 그 외

27 of 83

27

어떻게 빠른 시간에 발전했을까

28 of 83

28

어떻게 빠른 시간에 발전했을까

단순히 사람이 많아서일까?

베이징 도심

성수기 만리장성

29 of 83

29

어떻게 빠른 시간에 발전했을까

인력

30 of 83

30

어떻게 빠른 시간에 발전했을까

인력

  • 중국의 학구열

난징재경대학교 도서관 앞

31 of 83

31

어떻게 빠른 시간에 발전했을까

인력

  • 그를 받쳐주는 인프라

32 of 83

32

어떻게 빠른 시간에 발전했을까

인력

  • 활발한 창업

33 of 83

33

어떻게 빠른 시간에 발전했을까

인력

  • 높은 연봉

징동 200만 고연봉 기술직 신입, 화웨이 천재 소년 고용 프로그램 연봉과 비슷하다

34 of 83

34

어떻게 빠른 시간에 발전했을까

사내문화

35 of 83

35

어떻게 빠른 시간에 발전했을까

사내문화

  • 낮잠 문화

36 of 83

36

어떻게 빠른 시간에 발전했을까

사내문화

  • 수평관계?
    • 호칭
    • 동아리 활동
    • 생일파티
    • Team building 여행

37 of 83

37

어떻게 빠른 시간에 발전했을까

????

사내문화

  • 수평관계?

38 of 83

38

어떻게 빠른 시간에 발전했을까

사내문화

  • 높은 자유도

39 of 83

39

어떻게 빠른 시간에 발전했을까

데이터

40 of 83

40

어떻게 빠른 시간에 발전했을까

데이터

  • 자체 제작이 가능한 자본력

41 of 83

41

어떻게 빠른 시간에 발전했을까

데이터

  • 억단위의 사용자 데이터

위챗 2019년도 데이터 보고서

active user: 11.5억

전년 대비 성장률 6%

42 of 83

End of Document

Thank You.

43 of 83

43

데이터 공장의 하루:

왜, 어떻게, 얼마나 좋게 만들 것인가?

2021.11.17 18:00 데이터 제작 NLP Office Hour

진행 : 조원익

44 of 83

44

INDEX

1. 데이터 구축의 동기

2. 어떻게 만들 것인가?

3. 시행착오와 배운 점들

조원익

  • 서울대학교 전기정보공학부 석박사통합과정 재학
    • 음성언어/신호처리 전공
    • 한국어 데이터셋 구축 연구

45 of 83

45

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다

46 of 83

46

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다

47 of 83

47

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다

48 of 83

48

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다
  • 시리가 개떡같이 말해도 찰떡같이 알아들었으면 좋겠다

49 of 83

49

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
    • TASK: 혐오표현/차별/욕설 감지
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
    • TASK: 문장/문서 유사도 측정
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다
    • TASK: 화행 및 의도 인식
  • 시리가 개떡같이 말해도 찰떡같이 알아들었으면 좋겠다
    • TASK: 문장의 핵심 성분 추출

50 of 83

50

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
    • TASK: 혐오표현/차별/욕설 감지 ← “혐오표현은 어떤 것인가? 차별적 발화의 정의는 무엇인가?”
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
    • TASK: 문장/문서 유사도 측정 “두 문장/문서가 비슷한 정도는 어떻게 수치화할 수 있는가?”
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다
    • TASK: 화행 및 의도 인식 ← “질문이나 명령과 그렇지 않은 표현은 어떻게 구별하는가?”
  • 시리가 개떡같이 말해도 찰떡같이 알아들었으면 좋겠다
    • TASK: 문장의 핵심 성분 추출 ← “문장에서 어떤 표현들이 내용 전달에 꼭 필요한가?”

51 of 83

51

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
    • TASK: 혐오표현/차별/욕설 감지 ← “혐오표현은 어떤 것인가? 차별적 발화의 정의는 무엇인가?”
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
    • TASK: 문장/문서 유사도 측정 ← “두 문장/문서가 비슷한 정도는 어떻게 수치화할 수 있는가?”
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다
    • TASK: 화행 및 의도 인식 ← “질문이나 명령과 그렇지 않은 표현은 어떻게 구별하는가?”
  • 시리가 개떡같이 말해도 찰떡같이 알아들었으면 좋겠다
    • TASK: 문장의 핵심 성분 추출 ← “문장에서 어떤 표현들이 내용 전달에 꼭 필요한가?”

그래서… 그런 데이터가 존재하는가?

52 of 83

52

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
    • TASK: 혐오표현/차별/욕설 감지 ← “혐오표현은 어떤 것인가? 차별적 발화의 정의는 무엇인가?”
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
    • TASK: 문장/문서 유사도 측정 ← “두 문장/문서가 비슷한 정도는 어떻게 수치화할 수 있는가?”
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다
    • TASK: 화행 및 의도 인식 ← “질문이나 명령과 그렇지 않은 표현은 어떻게 구별하는가?”
  • 시리가 개떡같이 말해도 찰떡같이 알아들었으면 좋겠다
    • TASK: 문장의 핵심 성분 추출 ← “문장에서 어떤 표현들이 내용 전달에 꼭 필요한가?”

그래서… 그런 데이터가 존재하는가?

내가 원하는 언어로, 내가 원하는 양식으로 존재하는가?

53 of 83

53

1. 데이터 구축의 동기

무언가를 하고 싶다 (or 무언가를 해야 한다!)

  • 사람들이 쓰는 댓글에서 나쁜 말을 걸러내고 싶다
    • TASK: 혐오표현/차별/욕설 감지 ← “혐오표현은 어떤 것인가? 차별적 발화의 정의는 무엇인가?”
  • 내가 쓴 글과 이미 비슷한 글이 있는지 알아내고 싶다
    • TASK: 문장/문서 유사도 측정 ← “두 문장/문서가 비슷한 정도는 어떻게 수치화할 수 있는가?”
  • 시리를 부르지 않아도 반응하는 시리를 만들고 싶다
    • TASK: 화행 및 의도 인식 ← “질문이나 명령과 그렇지 않은 표현은 어떻게 구별하는가?”
  • 시리가 개떡같이 말해도 찰떡같이 알아들었으면 좋겠다
    • TASK: 문장의 핵심 성분 추출 ← “문장에서 어떤 표현들이 내용 전달에 꼭 필요한가?”

그래서… 그런 데이터가 존재하는가?

내가 원하는 언어로, 내가 원하는 양식으로 존재하는가?

없다면, 어떻게 만들 것인가?

54 of 83

54

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료

55 of 83

55

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료

태스크: 혐오 표현 감지

  • 어떤 곳에서 텍스트를 가져와야 가장 적합할까?�
  • 어떤 기준으로 텍스트를 뽑아야 model training에 적합한 태깅이 가능할까?�
  • 텍스트 활용이나 배포에 제약 사항은 없을까?

56 of 83

56

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)

57 of 83

57

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)

58 of 83

58

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)

59 of 83

59

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)

60 of 83

60

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정

61 of 83

61

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상

62 of 83

62

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면

63 of 83

63

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept

64 of 83

64

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept

태스크: 혐오 표현 감지

  • Input: Sentence-like something
    • 단일 문장? 여러 문장 허용?
    • Context를 포함?
    • Raw text를 넣을 것인가 다른 input도 포함시킬 것인가? (e.g., Entity tag)�
  • Output: Hate speech label
    • Binary/Ternary etc.
    • Single/Multi label (social bias?)

65 of 83

65

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept

태스크: 혐오 표현 감지

  • Input: Sentence-like something
    • 단일 문장? 여러 문장 허용?
    • Context를 포함?
    • Raw text를 넣을 것인가 다른 input도 포함시킬 것인가? (e.g., Entity tag)�
  • Output: Hate speech label
    • Binary/Ternary etc.
    • Single/Multi label (social bias?)

구축 가이드라인 ~ 설계 도면 ~ 명세서

  • 무엇을 혐오 표현으로 볼 것인가?
    • 혐오 표현의 정의
    • 이론적인 혐오 표현과 실제 online expression의 관계
    • 혐오 표현, 욕설, 모욕, 차별 등의 경계�
  • 단순히 Binary로 나눌 것인가?
    • 아니라면, 어떤 label을 추가할 것인가?
    • Multi label로 진행한다면, 겹칠 수 있는 부분들을 어떻게 정의하여 구별할 것인가?

66 of 83

66

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept

태스크: 혐오 표현 감지

  • Input: Sentence-like something
    • 단일 문장? 여러 문장 허용?
    • Context를 포함?
    • Raw text를 넣을 것인가 다른 input도 포함시킬 것인가? (e.g., Entity tag)�
  • Output: Hate speech label
    • Binary/Ternary etc.
    • Single/Multi label (social bias?)

구축 가이드라인 ~ 설계 도면 ~ 명세서

  • 무엇을 혐오 표현으로 볼 것인가?
    • 혐오 표현의 정의
    • 이론적인 혐오 표현과 실제 online expression의 관계
    • 혐오 표현, 욕설, 모욕, 차별 등의 경계�
  • 단순히 Binary로 나눌 것인가?
    • 아니라면, 어떤 label을 추가할 것인가?
    • Multi label로 진행한다면, 겹칠 수 있는 부분들을 어떻게 정의하여 구별할 것인가?

Offensive

67 of 83

67

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept
    • 파일럿 구축과 일치도 측정: 부분 생산 및 퀄리티 체크

68 of 83

68

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept
    • 파일럿 구축과 일치도 측정: 부분 생산 및 퀄리티 체크

연구 진행자

작업자

중간 관리자

69 of 83

69

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept
    • 파일럿 구축과 일치도 측정: 부분 생산 및 퀄리티 체크
  • 본 구축: 풀스케일 생산 (파일럿의 iteration은 한 번이 아닐 수 있음!)

70 of 83

70

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept
    • 파일럿 구축과 일치도 측정: 부분 생산 및 퀄리티 체크
  • 본 구축: 풀스케일 생산 (파일럿의 iteration은 한 번이 아닐 수 있음!)

연구 초기 파일럿 태깅 +

가이드라인

71 of 83

71

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept
    • 파일럿 구축과 일치도 측정: 부분 생산 및 퀄리티 체크
  • 본 구축: 풀스케일 생산 (파일럿의 iteration은 한 번이 아닐 수 있음!)

연구 초기 파일럿 태깅 +

가이드라인

업체 선정 +

업체 파일럿 +

작업자 선정

72 of 83

72

2. 어떻게 만들 것인가?

데이터 구축도 ‘제품 생산’의 과정이다! (그러나 model training에의 활용을 곁들인…)

  • 원시 코퍼스: 원재료 (원산지 - `네이버 뉴스 댓글’)
  • 연구 진행자: 작업 총괄 (구상, 도면, 프로토타입, 파일럿, 대량생산)
  • 파일럿: 본 생산에 들어가기 전 proof of concept를 체크하는 과정
    • 컨텐츠 구성 및 In/Out 설정: 제품 구상
    • 구축 가이드라인: 설계 도면
    • 예시 문장/문서: 제품의 Proof of concept
    • 파일럿 구축과 일치도 측정: 부분 생산 및 퀄리티 체크
  • 본 구축: 풀스케일 생산 (파일럿의 iteration은 한 번이 아닐 수 있음!)

연구 초기 파일럿 태깅 +

가이드라인

업체 선정 +

업체 파일럿 +

작업자 선정

가이드라인 업데이트 +

작업자 태깅 +

퀄리티체크 +

데이터 분배

73 of 83

73

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문

74 of 83

74

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?

75 of 83

75

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다

76 of 83

76

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다
    • ‘모두를 만족시키는 가이드라인’ 같은 것은 거의 존재하지 않는다고 보아도 무방

77 of 83

77

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다
    • ‘모두를 만족시키는 가이드라인’ 같은 것은 거의 존재하지 않는다고 보아도 무방
    • 우리가 미처 생각하지 못했던 종류의 표현들의 등장 (창의적인 냉소, 비꼼, 돌려까기, 혹은 선의의 편견 등)

78 of 83

78

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다
    • ‘모두를 만족시키는 가이드라인’ 같은 것은 거의 존재하지 않는다고 보아도 무방
    • 우리가 미처 생각하지 못했던 종류의 표현들의 등장 (창의적인 냉소, 비꼼, 돌려까기, 혹은 선의의 편견 등)
    • 연구 진행자와 작업자들 간의 윤리관의 차이

79 of 83

79

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다
    • ‘모두를 만족시키는 가이드라인’ 같은 것은 거의 존재하지 않는다고 보아도 무방
    • 우리가 미처 생각하지 못했던 종류의 표현들의 등장 (창의적인 냉소, 비꼼, 돌려까기, 혹은 선의의 편견 등)
    • 연구 진행자와 작업자들 간의 윤리관의 차이
  • 레이블 간의 불균형 (사실 구축하기 전에는 알기 어려운 것)

80 of 83

80

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다
    • ‘모두를 만족시키는 가이드라인’ 같은 것은 거의 존재하지 않는다고 보아도 무방
    • 우리가 미처 생각하지 못했던 종류의 표현들의 등장 (창의적인 냉소, 비꼼, 돌려까기, 혹은 선의의 편견 등)
    • 연구 진행자와 작업자들 간의 윤리관의 차이
  • 레이블 간의 불균형 (사실 구축하기 전에는 알기 어려운 것)
  • 데이터 구축에는 돈이 든다…

81 of 83

81

3. 시행착오와 배운 점들

곳곳에서 다양한 이슈들이 발생!

  • 왜 우리가 이 데이터셋을 만드는가? 에 대한 근원적인 질문
  • 네이버 뉴스 댓글은 정말 저작권의 문제가 없는가?
  • Hate speech 및 Social bias를 바라보는 개개인의 시각이 모두 다를 수 있다
    • ‘모두를 만족시키는 가이드라인’ 같은 것은 거의 존재하지 않는다고 보아도 무방
    • 우리가 미처 생각하지 못했던 종류의 표현들의 등장 (창의적인 냉소, 비꼼, 돌려까기, 혹은 선의의 편견 등)
    • 연구 진행자와 작업자들 간의 윤리관의 차이
  • 레이블 간의 불균형 (사실 구축하기 전에는 알기 어려운 것)
  • 데이터 구축에는 돈이 든다…
  • 최근의 자연어 데이터 구축은 엄중한 윤리적 가이드라인을 필요로 한다…

82 of 83

82

3. 시행착오와 배운 점들 - Takeaway

AI에서의 데이터 과학 - 데이터를 구축/분석하고 모델 개발과의 bridge를 놓는 것

  • 기본적으로 엉덩이 붙이고 작업하는 시간이 많다
  • 엉덩이 붙이고 작업하는 것 외에도, 연구 진행 및 구축 매니징 과정은 human computation에 해당한다
  • 대규모 데이터 구축에는 돈이 든다; 돈으로 해결되지 않는 영역도 물론 존재하며, 그것은 시간으로 메워야 한다
  • 수행할 task와 그 목적을 명확히 한 후 데이터 구축 프로세스에 착수하자
  • 그럼에도 불구하고 시행착오와 갈등은 필연적임을 받아들이자

83 of 83

End of Document

Thank You.