2 of 16

인공지능 추천 시스템의 패러다임 전환

DLRM에서 GR로의 진화와 그 의미

연구 배경과 논문 소개

Meta AI Research의 핵심 문제의식과 기여

핵심 아키텍처 분석

HSTU와 통합 피처 공간의 설계 원리

실험 결과 상세 분석

학계 데이터셋과 산업용 대규모 평가

효율성 및 확장성 검증

스케일링 법칙과 연산 효율성 입증

논문 비교 및 통합 인사이트

기존 접근법 대비 핵심 차별점

한계 및 향후 연구 방향

콜드 스타트와 멀티모달 확장

실무 구현 전략

M-FALCON 알고리즘의 실전 적용

3 of 16

인공지능 추천 시스템의 패러다임 전환

DLRM에서 Generative Recommenders로

DLRM의 시대와 한계

지난 10년간 Deep Learning Recommendation Models(DLRM)이 추천 시스템을 주도함. 이 방식은 수작업으로 가공된 수천 개의 이질적인 피처와 거대한 임베딩 테이블에 의존

그러나 데이터와 연산량을 늘려도 성능 향상이 정체되는 '확장성의 한계'에 봉착함. 복잡한 피처 엔지니어링에도 불구하고 일정 규모 이상에서는 더 이상의 개선을 보이지 않음

Generative Recommenders의 등장

거대 언어 모델(LLM)의 성공에 영감을 받아, 추천 시스템을 순차적 변환(Sequential Transduction) 문제로 재정의하는 움직임이 시작됨

사용자의 행동(클릭, 좋아요 등)을 하나의 언어처럼 취급하여 다음 행동을 생성(예측)하는 방식임. 이는 추천 시스템의 근본적인 사고방식을 바꾸는 전환점

4 of 16

연구 배경과 논문 소개

Meta AI Research의 혁신적 접근

논문 정보

Actions Speak Louder than Words (2024)

Meta AI Research

핵심 주제

기존 DLRM을 대체하는 Generative Recommenders(GR) 제안

고효율 아키텍처 HSTU 개발

문제 의식

기존 Transformer는 O(N²) 복잡도로 인해 추천 시스템의 긴 시퀀스 처리에 비효율적임

DLRM은 스케일링 법칙이 적용되지 않아 성능 개선 한계 존재

주요 기여

통합 피처 공간

이질적 피처를 통합된 시퀀스로 변환하는 Unified Feature Space 제안

HSTU 아키텍처

Transformer 대비 5~15배 빠른 Hierarchical Sequential Transduction Unit 개발

상용 배포 성공

1.5조 파라미터 모델로 12.4% 성능 향상 달성

5 of 16

핵심 아키텍처 분석: 통합 피처 공간

DLRM 방식의 복잡성

범주형(Categorical) 피처와 수치형(Numerical) 피처를 별도의 임베딩과 MLP로 처리한 뒤 복잡하게 결합하는 구조임.

다양한 모듈(Feature Interaction, MoE, DCN 등)이 얽혀 있어 최적화가 어렵고, 각 피처 유형에 대한 수작업 처리가 필수적이었음.

GR 방식의 단순함

모든 피처를 시계열 데이터로 직렬화(Serialization)함. 사용자가 상호작용한 아이템과 행동을 교차 배치함.

(아이템, 행동, 아이템, 행동...) 형태의 단일 시퀀스로 만들어, 모델 구조를 극적으로 단순화하고 생성형 학습을 가능하게 함.

6 of 16

HSTU 아키텍처의 혁신

핵심 설계 원리

HSTU는 Transformer의 Self-Attention을 점별 집계 어텐션(Pointwise Aggregated Attention)으로 대체함.

Softmax 기반의 정규화를 제거하고, 상대적 위치 편향(Relative Attention Bias)을 도입하여 추천 시스템에 특화된 강도(Intensity) 표현력을 극대화함.

구조적 차별점

DLRM: 복잡한 모듈 조합으로 최적화 어려움

HSTU: 단순하고 반복 가능한 블록 스택 구조

추천 시스템의 순차적 특성에 최적화된 설계

7 of 16

실험 결과: 합성 데이터 검증

Softmax의 근본적 한계 입증

0.0442

Transformer HR@10

일반 Transformer의 성능

0.0893

HSTU-rab HR@10

2배 이상 향상

실험 설계

비정상성(Non-stationary)을 가진 합성 데이터로 모델의 근본적인 학습 능력을 테스트함. 실제 추천 환경에서 자주 발생하는 분포 변화를 시뮬레이션함.

핵심 인사이트

Softmax는 전체 시퀀스에 대한 확률을 정규화하므로, 추천 시스템에서 중요한 '사용자 선호의 절대적 강도'를 희석시킴. HSTU의 집계 방식이 이 문제를 근본적으로 해결함을 증명함.

8 of 16

학계 표준 데이터셋 성능

MovieLens-20M

SASRec 대비 Hit Rate@10 +22.8%

NDCG@10 +30.0% 향상

Amazon Books

데이터 희소성이 높은 환경

성능 격차 60% 이상

종합 우위

모든 메트릭에서 일관된 성능 개선

특히 롱테일 분포에서 탁월

데이터가 복잡하고 롱테일 분포를 가질수록 HSTU의 순차적 모델링 능력이 기존 Transformer 계열(SASRec, BERT4Rec)보다 압도적임을 입증함. 이는 실제 산업 환경의 특성과 매우 유사함.

9 of 16

산업용 대규모 스트리밍 데이터 평가

Meta의 실제 프로덕션 환경 검증

실험 규모

Meta의 실제 로그 1,000억 개 사용

실제 프로덕션 수준의 노이즈와 복잡성 포함

Transformer의 실패

랭킹 작업(Ranking NE)에서 NaN 오류 발생

학습 자체가 불가능한 수준으로 발산

HSTU의 안정성

NE 0.4937로 안정적 수렴

대규모 노이즈 환경에서도 견고한 학습

핵심 의의: 대규모 산업 데이터는 심한 노이즈를 포함함. HSTU는 이러한 실제 환경에서도 안정적인 학습이 가능한 유일한 대안임을 입증함. 이는 학계 데이터셋과 실제 프로덕션 간 격차를 해소하는 중요한 성과임.

10 of 16

비즈니스 임팩트: 검색 및 랭킹

검색(Retrieval) 성능

6.2%

E-Task 향상

온라인 지표 개선

GR을 기존 시스템에 추가했을 때 온라인 지표 상승함. 단순히 상호작용만 학습하면 성능 떨어짐, 콘텐츠 피처 통합 필수적임 확인됨.

랭킹(Ranking) 성능

12.4%

A/B 테스트 성과

경이적인 개선

최신 DLRM(DIN+DCN) 대비 오프라인 지표 개선되었을 뿐만 아니라, 실제 A/B 테스트에서 +12.4%라는 탁월한 성과 기록함.

11 of 16

효율성 검증: 확률적 길이와 희소성

Stochastic Length (SL) 기법

학습 시 시퀀스 길이를 확률적으로 줄이는 혁신적인 기법 도입함. Alpha=1.6 설정 시 데이터의 84%를 제거(희소성 증가)해도 모델 성능 저하가 거의 없음.

전체 시퀀스

100% 데이터

확률적 샘플링

16% 핵심 정보만 선별

효율성 획득

훈련 비용 획기적 감소

핵심 의의: 긴 시퀀스를 전부 연산할 필요 없이 핵심 정보만 선별하여 학습함으로써, 거대 모델의 훈련 비용을 획기적으로 낮출 수 있음. 이는 실용적인 대규모 모델 훈련의 핵심 기술임.

12 of 16

인코더 속도 비교

압도적인 연산 효율성

15.2×

훈련 속도

FlashAttention2 대비

5.6×

추론 속도

실시간 서비스 가능

벤치마크 조건

시퀀스 길이: 8192 토큰

비교 대상: FlashAttention2 기반 최신 Transformer

동일한 하드웨어 환경에서 측정

혁신의 의미: 단순한 알고리즘 개선이 아니라, 물리적인 연산 속도를 10배 이상 가속화하여 실시간 서비스 적용의 장벽을 허물었음. 이는 대규모 추천 시스템의 실용화를 가능하게 하는 핵심 기술임.

13 of 16

스케일링 법칙의 발견

14 of 16

논문 비교 및 통합 인사이트

구분

기존 접근 (DLRM / Transformer Rec)

본 논문 (GR / HSTU)

핵심 철학

"피처 엔지니어링이 왕임"

수천 개의 피처 조합

"행동이 말보다 더 크게 말함"순차적 행동 로그 중심

아키텍처

복잡한 이종 결합

(Embedding + MLP + Interaction)

단순하고 빠른 순차 변환기

(HSTU Block Stack)

확장성

특정 규모에서 성능 포화

(Diminishing Returns)

무한한 확장 가능성(Scaling Law 입증)

효율성

O(N²) 복잡도로

긴 시퀀스 처리 불가

선형에 가까운 효율성

8K+ 시퀀스 처리 가능

통합 인사이트

본 논문은 추천 시스템이 예측 모델에서 생성(Generation) 모델로 진화해야 함을 역설함. 복잡한 피처 가공보다 사용자의 행동 이력을 있는 그대로(Raw Sequence) 대규모로 학습시키는 것이 훨씬 더 강력하다는 것을 데이터로 증명함.

15 of 16

논문의 한계 및 향후 연구 방향

행동 로그 기반이므로, 이력이 없는 신규 유저나 아이템에 대한 처리는 여전히 과제로 남아 있음. 본문에서 명시적 해결책이 제시되지 않음

학습 비용

효율적이라고는 하나, GPT-3급의 연산 자원이 필요하므로 대형 테크 기업 외에는 재현이 어려움. 인프라 접근성이 중요한 장벽

하드웨어 의존성

성능 최적화를 위해 맞춤형 GPU 커널 구현이 필수적임. 표준 프레임워크만으로는 최적 성능을 달성하기 어려움

향후 연구 방향

멀티모달 통합

텍스트, 이미지 등 다양한 모달리티를 시퀀스에 통합하는 Foundation Model로의 확장

생성 고도화

빔 서치(Beam Search) 등을 활용한 리스트 단위의 생성형 추천 개선

접근성 향상

중소 규모 조직도 활용 가능한 경량화 및 효율화 연구

분석/인사이트

16 of 16

실무 구현 전략: M-FALCON 알고리즘

초거대 모델의 실시간 서비스 최적화

핵심 과제: 생성형 모델(GR)은 DLRM보다 연산량이 285배나 많아, 실시간으로 수만 개의 후보 아이템을 랭킹 매기기가 불가능했음

마이크로 배칭 (Micro-batching)

수천 개의 후보 아이템을 작은 그룹으로 나누어 순차적으로 처리함. 이를 통해 메모리 사용량을 제어하면서도 병렬성을 유지할 수 있음

캐싱 (Caching)

사용자의 과거 행동 시퀀스에 대한 연산 결과(K, V)를 캐싱하여, 후보 아이템 평가 시 재사용함. 즉, 과거 이력은 한 번만 계산하고 후보 아이템에 대한 연산만 추가함

성능 향상

기존 DLRM 대비 처리량(QPS)을 1.5배~3배 향상시킴. 이는 초거대 모델을 실시간 서비스에 적용할 수 있는 핵심적인 엔지니어링 전략

기술적 의의

M-FALCON은 단순히 최적화 기법이 아니라, 생성형 추천 모델의 실용화를 가능하게 만든 핵심 브레이크스루/ 알고리즘적 혁신과 엔지니어링 최적화가 결합된 사례

실무 적용 가이드

사용자 시퀀스 임베딩 사전 계산 및 캐싱

후보 아이템을 배치로 그룹화하여 처리

GPU 메모리 관리를 위한 동적 배치 크기 조정

지속적인 프로파일링으로 병목 지점 식별