3 of 83

오늘 전달드릴 이야기

이런 분들이 들으면 좋아요

DBT 도입을 시도하려고 하는데 고민이 되시는 분
DBT 도입을 했거나 비슷한 방식으로 만들어서 모델링을 하고 있었으나 문제를 겪고 계시는 분
당근 데이터 가치화팀이 어떤 문제를 겪고 있었고 어떤 방식으로 문제를 풀어갔는지 궁금하신 분

이런 내용들은 다루지 않아요

DBT나 Airflow 관련한 딥한 코드 얘기

4 of 83

오늘 전달드릴 이야기

당근 데이터 가치화팀이 어떤 문제의식에서 출발하여 DBT를 도입하게 된 배경과 그 과정, 그리고 앞으로의 계획을 공유하려고 합니다.

5 of 83

용어

DBT에 대한 간단한 설명

: DBT는 ETL에서 T를 SQL과 Yaml만으로 할 수 있게 해주는 워크플로우 툴입니다. 데이터 테스트나 모듈화 등 소프트웨어 엔지니어링적인 역량을 갖추게 해줍니다.

참고: DBT 공식 문서

6 of 83

당근 소개

7 of 83

당근 소개

당근에서의 지표 (당근 지표 플랫폼 Karrotmetrics)

당근에서의 실험 (당근 실험플랫폼)

8 of 83

Part 1 - 당근이 겪은 문제와 DBT 도입 배경

9 of 83

문제 의식

데이터 보는 것이 어려워요

10 of 83

문제 의식

데이터 보는 것이 어려워요

보고 싶은 데이터가 있는데 무엇을 봐야할지 모르겠어요

11 of 83

문제 의식

데이터 보는 것이 어려워요

보고 싶은 데이터가 있는데 무엇을 봐야할지 모르겠어요

다른 팀의 데이터를 보고 있는데 무슨 의미인지 모르겠어요

12 of 83

문제 의식

데이터 보는 것이 어려워요

보고 싶은 데이터가 있는데 무엇을 봐야할지 모르겠어요

다른 팀의 데이터를 보고 있는데 무슨 의미인지 모르겠어요

이 데이터는 신뢰할 수 있나요?

13 of 83

문제 의식

데이터 보는 것이 어려워요

보고 싶은 데이터가 있는데 무엇을 봐야할지 모르겠어요

다른 팀의 데이터를 보고 있는데 무슨 의미인지 모르겠어요

이 데이터는 신뢰할 수 있나요?

A,B,C 데이터 중에 어떤걸 사용해야 해요? �: A는 이제 사용안한다고요!?

14 of 83

문제 의식

데이터 보는 것이 어려워요

보고 싶은 데이터가 있는데 무엇을 봐야할지 모르겠어요

다른 팀의 데이터를 보고 있는데 무슨 의미인지 모르겠어요

이 데이터는 신뢰할 수 있나요?

X 정보를 얻기 위해 1000줄 쿼리를 만들고 관리해야 해요

A,B,C 데이터 중에 어떤걸 사용해야 해요? �: A는 이제 사용안한다고요!?

15 of 83

문제 의식 - 시나리오

방문한 유저의 1/3이 A피드를 보고 결제를 했어요!

요리조리, 이런저런 로직

16 of 83

문제 의식 - 시나리오

방문한 유저의 1/3이 A피드를 보고 결제를 했어요!

요리조리, 이런저런 로직

팀장님: �그러면 B피드를 보고 결제한 유저는 얼마나 되나요?

17 of 83

문제 의식 - 시나리오

방문한 유저의 1/3이 A피드를 보고 결제를 했어요!

요리조리, 이런저런 로직

팀장님: �그러면 B피드를 보고 결제한 유저는 얼마나 되나요?

나:

잠시만요 (방문한 유저 JOIN, B 피드 본 유저 JOIN, 결제한 유저 JOIN…) 1/6이네요!

18 of 83

문제 의식 - 시나리오

방문한 유저의 1/3이 A피드를 보고 결제를 했어요!

요리조리, 이런저런 로직

팀장님: �그러면 B피드를 보고 결제한 유저는 얼마나 되나요?

나:

잠시만요 (방문한 유저 JOIN, B 피드 본 유저 JOIN, 결제한 유저 JOIN…) 1/6이네요!

팀장님:

어떤 로직으로 계산하신거죠?

19 of 83

문제 의식 - 시나리오

방문한 유저의 1/3이 A피드를 보고 결제를 했어요!

요리조리, 이런저런 로직

팀장님: �그러면 B피드를 보고 결제한 유저는 얼마나 되나요?

나:

잠시만요 (방문한 유저 JOIN, B 피드 본 유저 JOIN, 결제한 유저 JOIN…) 1/6이네요!

팀장님:

어떤 로직으로 계산하신거죠?

나:

A JOIN B LEFT JOIN C LEFT JOIN D WHERE A.type = “A”

20 of 83

문제 의식 - 시나리오

방문한 유저의 1/3이 A피드를 보고 결제를 했어요!

요리조리, 이런저런 로직

팀장님: �그러면 B피드를 보고 결제한 유저는 얼마나 되나요?

나:

잠시만요 (방문한 유저 JOIN, B 피드 본 유저 JOIN, 결제한 유저 JOIN…) 1/6이네요!

팀장님:

어떤 로직으로 계산하신거죠?

나:

A JOIN B LEFT JOIN C LEFT JOIN D WHERE A.type = “A”

팀장님:

A.type이 아니고 B.type으로 필터해야할 것 같은데요? B 데이터가 원래 그래요…

21 of 83

문제 의식

데이터 보는 것이 어려워요 쉬워요

원하는 정보가 이미 정제되어서 존재한다.

짧은 쿼리로 정보를 손쉽게 접근할 수 있다.
정보를 재사용할 수 있고, 원본을 보는 것보다 효율적이다.

원하는 정보가 신뢰할 수 있는 형태로 만들어졌다.

추가적인 가공이나 확인이 필요 없다.

정보가 잘 정의가 되어 있고, 정보를 쉽게 이해할 수 있는 방법이 있다.

정보가 어떻게 만들어졌는지 쉽게 알고 이해할 수 있다.

정보 탐색이 쉽다

원하는 정보가 있을 때 거의 바로 찾아서 활용할 수 있다.

22 of 83

문제 의식

데이터 보는 것이 어려워요 쉬워요

원하는 정보가 이미 정제되어서 존재한다.

짧은 쿼리로 정보를 손쉽게 접근할 수 있다.
정보를 재사용할 수 있고, 원본을 보는 것보다 효율적이다.

원하는 정보가 신뢰할 수 있는 형태로 만들어졌다.

추가적인 가공이나 확인이 필요 없다.

정보가 잘 정의가 되어 있고, 정보를 쉽게 이해할 수 있는 방법이 있다.

정보가 어떻게 만들어졌는지 쉽게 알고 이해할 수 있다.

정보 탐색이 쉽다

원하는 정보가 있을 때 거의 바로 찾아서 활용할 수 있다.

=> 잘 만들어진 정보가 있어야 한다

23 of 83

문제 의식

원하는 데이터 만드는 것이 어려워요…!

24 of 83

문제 의식

쉽게 데이터를 볼 수 있으려면…

신뢰할 수 있는 정보들이 �지속적으로 만들어지고 관리되어야 하고,

정보를 만드는 것이 쉬워야 해요

25 of 83

DBT 도입 배경

신뢰할 수 있는 정보들이 지속적으로 만들어지고 관리되기 위해서는

신뢰할 수 있는 정보를 만들 수 있는 데이터 엔지니어링 역량 필요
사용자들에 대한 정보를 정의하고 이해할 수 있는 도메인 지식 필요

26 of 83

DBT 도입 배경

신뢰할 수 있는 정보를 만들기 위한 데이터 엔지니어링 역량
주기적으로 정보가 만들어져야 해요
정보에 대한 퀄리티가 보장되어야 해요

데이터간 의존성, 데이터 테스트, 데이터 관측성, 등

정보가 잘 관리되어야 해요

정의, 메타데이터, 통합된 정보, 탐색 용이한 구조, 등

27 of 83

DBT 도입 배경

2. 사용자들에 대한 정보를 정의하고 이해할 수 있는 도메인 지식

도메인 지식이 반영된 비즈니스 로직으로 정보가 만들어져야 해요

예를 들어, X서비스 활성화 유저는 name = ‘xxxx’로 필터해야 해요.

변화에 따라 지속적으로 정보가 업데이트 및 관리되어야 해요

예를 들어, X를 바라보던 로직이 데이터 마이그레이션 이후에는 Y를 바라보도록 수정되어야 해요.

28 of 83

DBT 도입 배경

데이터 엔지니어 역량 갖춘 사람 + 도메인 지식

도메인 지식 갖춘 사람 + 데이터 엔지니어링 역량

29 of 83

DBT 도입 배경

현실

30 of 83

DBT 도입 배경

도메인 지식을 가지고 있는 구성원이 �데이터 엔지니어링 역량을 발휘할 수 있도록 도와주는 것이 더 확장성 있는 방안

31 of 83

Part 2 - DBT 도입 과정

32 of 83

DBT - Are you 만병통치약?

DBT with Airflow가 모든 회사의 모든 문제를 해결해 줄 수 있는 �Silver Bullet은 아닙니다.

데이터의 형태, 적재된 장소, 도메인, 비즈니스 니즈, 데이터 리터러시, 데이터 문화, 회사의 일하는 방식에 따라서 문제를 해결하는 방법은 달라질 수 있습니다. 그리고, DBT가 있기 전에 이미 사내에 비슷한 플랫폼을 구축하고 이미 잘 사용하고 있었더라면 더더욱 DBT를 꼭 도입해야할지 두번 고민하시길 바랍니다.

33 of 83

DBT 도입 과정

Why DBT & Airflow?

Easy Transformation

: yaml과 sql만으로 원하는 곳에 원하는 정의, 방식대로 데이터를 가공해서 저장할 수 있음

Data Quality

: DBT 모델간 의존성 기능을 통해 특정 모델이 실행되고 나서 다음 모델이 실행되게 할 수 있음. 가공된 DBT 모델

데이터에 대해 테스트 할 수 있음 (ex. NOT NULL, UNIQUE…)

Documentation

: 모델의 정의와 각 컬럼들에 대한 정의 및 설명을 통해 모델에 대한 도큐먼트화가 자동으로 됨

Reusability

: 반복되는 로직을 재사용성 있는 포맷으로 만들 수 있음

Data Freshness

: 주기적인 스케줄링을 통해 최신 데이터가 모델에 반영될 수 있음

Observability

: 모델이 실제로 실행되었는지, 실패된 경우가 있는지 모니터링 가능. 실패했을 때 빠르게 인지 가능.

34 of 83

DBT 도입 과정

Why DBT & Airflow?

Easy Transformation

: yaml과 sql만으로 원하는 곳에 원하는 정의, 방식대로 데이터를 가공해서 저장할 수 있음

Data Quality

: DBT 모델간 의존성 기능을 통해 특정 모델이 실행되고 나서 다음 모델이 실행되게 할 수 있음. 가공된 DBT 모델

데이터에 대해 테스트 할 수 있음 (ex. NOT NULL, UNIQUE…)

Documentation

: 모델의 정의와 각 컬럼들에 대한 정의 및 설명을 통해 모델에 대한 도큐먼트화가 자동으로 됨

Reusability

: 반복되는 로직을 재사용성 있는 포맷으로 만들 수 있음

Data Freshness

: 주기적인 스케줄링을 통해 최신 데이터가 모델에 반영될 수 있음

Observability

: 모델이 실제로 실행되었는지, 실패된 경우가 있는지 모니터링 가능. 실패했을 때 빠르게 인지 가능.

user_id	status	created_at
1	STATUS1	2024-04-10
2	DEFAULT	2024-04-29
3	STATUS3	2024-04-01

35 of 83

DBT 도입 과정

Why DBT & Airflow?

2. Data Quality

: DBT 모델간 의존성 기능을 통해 특정 모델이 실행되고 나서 다음 모델이 실행되게 할 수 있음. 가공된 DBT 모델

데이터에 대해 테스트 할 수 있음 (ex. NOT NULL, UNIQUE…)

36 of 83

DBT 도입 과정

Why DBT & Airflow?

3. Documentation

: 모델의 정의와 각 컬럼들에 대한 정의 및 설명을 통해 모델에 대한 도큐먼트화가 자동으로 됨

Reusability

: 반복되는 로직을 재사용성 있는 포맷으로 만들 수 있음

Data Freshness

: 주기적인 스케줄링을 통해 최신 데이터가 모델에 반영될 수 있음

Observability

: 모델이 실제로 실행되었는지, 실패된 경우가 있는지 모니터링 가능. 실패했을 때 빠르게 인지 가능.

37 of 83

DBT 도입 과정

Why DBT & Airflow?

4. Reusability

: 반복되는 로직을 재사용성 있는 포맷으로 만들 수 있음

. 실패했을 때 빠르게 인지 가능.

user model

a model

b model

c model

macros

38 of 83

DBT 도입 과정

Why DBT & Airflow?

5. Data Freshness

: 주기적인 스케줄링을 통해 최신 데이터가 모델에 반영될 수 있음

. 실패했을 때 빠르게 인지 가능.

39 of 83

DBT 도입 과정

Why DBT & Airflow?

6. Observability

: 모델이 실제로 실행되었는지, 실패된 경우가 있는지 모니터링 가능. 실패했을 때 빠르게 인지 가능.

. 실패했을 때 빠르게 인지 가능.

40 of 83

DBT 도입 과정

41 of 83

DBT 도입 과정

DBT x Airflow를 사용하면 데이터를 만드는 것은 쉬워지지만…구조나 규칙이 없다면?

42 of 83

DBT 도입 과정

DBT x Airflow를 사용하면 데이터를 만드는 것은 쉬워지지만…구조나 규칙이 없다면?

43 of 83

DBT 도입 과정

그 중에서 “직관적이고 쉬운 형태의 구조화"가 있어야 도메인 지식을 아는 구성원이 데이터 엔지니어링 역량을 쉽게 갖출 수 있을 것이라고 생각했습니다.�

44 of 83

DBT 도입 과정 - 구조화