2 of 29

연구 추진 배경LLM과 추천시스템의 구조LinkedIn EMNLP 2025 분석ALKDRec AAAI 2025 분석비교 및 통합 인사이트한계 및 향후 과제결론

LLM과 SLM관련 인공지능 추천 트렌드

(2) 연구배경과 논문 소개

(3) LinkedIn EMNLP 2025 분석

(4) ALKDRec AAAI 2025 분석

(5) 논문 비교 및 통합 인사이트

(6) 논문의 한계

(7) 추가 연구 필요한 방향

(8) Multimodal KD Prototype 구현

3 of 29

LLM과 SLM관련 인공지능 추천 트렌드

· 인공지능 추천시스템에서 LLM(Large Language Model)이 등장한 이유와 한계 정리

구분	내용
추천시스템 진화(2025)	DNN → Transformer → LLM 기반 추천 (Context 및 논리적 Reasoning 강화)
LLM의 강점	사용자 의도 해석, 긴 시퀀스 이해, 맥락 기반 추천 가능
LLM의 한계(기술)	- 추론 지연 및 메모리 요구량 증가 모델 크기 수십~수백 GB
LLM의 한계(산업)	- GPU 운영비 증가 및 대규모 트래픽 대응 어려움 - 사내 적용 시 보안·데이터 이슈

4 of 29

한국이 가야 할 방향: 초거대 모델 경쟁이 아니라 “효율화 한국은 최적화·경량화·통신·단말기·AI반도체 분야에서 세계적 DeepSeek의 전략처럼**“대형 Teacher → SLM(Student) distillation”**이 훨씬 현실적이고 효과적

LLM과 SLM관련 인공지능 추천 트렌드

· LLM을 병행한 SLM(Small Language Model)이 등장한 이유와 관련 설명

이유	설명
효율성 및 비용	GPU·전력·비용을 크게 절감하면서 성능은 유지
실시간성	모바일·서비스 백엔드에서 지연 없이 실행 가능
적용 확장성	사내 데이터·지자체·금융·의료 등 규제 산업에 적합
보안성	On-premise/Edge inference 가능하여 데이터 유출 리스크 감소

- 글로벌 산업은 비용·지연·보안 문제로 인해 LLM과 SLM병행 전략이 트렌드

(GPT-4o mini, DeepSeek, Phi-3, Mini CPM 등 LLM기반 SLM 효율화 전략 추진 중)

- 한국 기업의 자체 초거대 모델 개발에는 비용 부담이 매우 큼

- 도메인을 좁히거나 Agent 등으로 역할을 분리하는 경우 LLM과 SLM병행이 최선 전략

- 한국 기업들의 AI적용 전략도 대형 Teacher기반 SLM(Student) distillation이 현실적

LLM

(Large Language Model)

SLM

(Small Language Model)

LLM과 SLM 병행이 가성비 있는 접근

5 of 29

LLM과 SLM관련 인공지능 추천 트렌드

· KD(Knowledge Distill)관련 설명

구분	내용
정의	대형 LLM(Teacher)의 지식·추론 능력을 경량 SLM(Student)에 압축·전수하는 기법
목적	성능은 최대한 유지하면서 비용·지연·메모리 사용량을 최소화
구조	Teacher LLM → 고품질 답변· Reasoning· Ranking 생성 → Student SLM이 이를 모사
학습 방식	Soft Label KD* · Forward KL* · Pairwise Ranking KD* · Response Distillation
장점	• Teacher 성능 거의 그대로 유지 가능�• 데이터 유출 위험 감소(사내 SLM 구축) 및 도메인 특화 Agent 개발에 적합

KD는 LLM의 지능을 SLM에 압축해 전달하는 기술로,�성능 대비 비용·지연 절감 효과가 가장 큰 실무형 AI 전략

* Soft Label KD: Teacher가 예측한 확률분포(soft label)를 Student가 그대로 따라하도록 학습

* Forward KL: Teacher의 출력 분포와 Student 분포가 최대한 동일해지도록 KL Divergence로 정렬

* Pairwise Ranking KD : Teacher가 판단한 “A가 B보다 더 선호된다” 같은 순위 관계(pairwise)를 Student가 학습

6 of 29

(2) 연구 배경과 논문 소개

· 산업계가 선택하는 방향과 최신 트렌드 논문 2가지 소개

[Scaling Down, Serving Fast: Compressing and Deploying Efficient LLMs for

Recommendation Systems]

[Active Large Language Model-based Knowledge Distillation for Session-based Recommendation]

논문	문제 설정	제안 방식	산업적 의미
LinkedIn Scaling Down, Serving Fast	LLM의 높은 추론비용·지연	Distillation·Compression 기반 SLM 구축	- 운영(Serving) 비용 대폭 절감�- 100B → 3B(2.1B까지) 압축, 성능 유지�- 대규모 추천 서비스에서 효율적 LLM 적용 사례
Active LLM-based KD	Teacher 오류 전이에 따른 비효율적 KD	Teacher 예측을 선별하는 Active Filtering	- 학습(KD) 비용 절감 및 Student 품질 개선�- Session-based Recommendation에서 효과�- 순위·정렬 기반 추천 모델의 경량화 품질 향상

7 of 29

(3) LinkedIn EMNLP 2025 분석

· LinkedIn EMNLP Industry (LinkedIn, Google 등의 실제 시스템 적용 사례를 다룬 세션) 2025 논문 요약

구분	내용
논문명 / 연도	Scaling Down, Serving Fast: Compressing and Deploying Efficient LLMs for Recommendation Systems (EMNLP Industry 2025)
연구기관	LinkedIn AI Research (Microsoft / LinkedIn Relevance & AI Team)
핵심 주제	대형 LLM(100B)을 실시간 인공지능 추천 시스템에 적용하기 위한 경량화·압축·지식증류(SLM) 기반 효율화 기술 개발
문제의식	- 대형 LLM은 너무 느리고 비용이 매우 높아 실시간 추천 적용 불가능 �- 기존 경량화는 성능 손실이 커서 실서비스 적용 어려움
주요 기여(특징)	- 100B → 3B, 약 33배 축소하면서 AUC 0.06% 이내 성능 유지 �- 실제 LinkedIn Feed / Search / Job Recommendation 시스템에 상용 배포 �- P99 TTFT Latency 2.3배 개선, GPU Memory 80% 절감
유형	- 산업 적용형(Industrial Engineering Paper) �- 실제로 배포 가능한 인공지능 추천 시스템(LLM 기반 RecSys) 구축

8 of 29

(3) LinkedIn EMNLP 2025 분석

· Knowledge Distillation(KD) Loss 개념 및 수학 공식

- KD(Knowledge Distillation)는 Teacher(대형 LLM)이 가진 확률 분포 정보를 Student

(작은 SLM)에게 그대로 전수하는 학습 방식

- 이때 사용되는 핵심 목적함수가 바로 KD Loss이며, Teacher와 Student의

출력 확률 분포 사이의 차이를 최소화

- 수식의 의미 : Teacher와 Student가 특정 시점(t)에서 예측하는 ‘다음 토큰 확률 분포’가

얼마나 다른지, 그 차이를 전체 토큰 길이(T)에 걸쳐 모두 더한 값이 KD Loss

p(·|y<t, x) :Teacher(Large LLM)의 다음 토큰 확률 분포

q(·|y<t, x) : Student(Small LLM)의 다음 토큰 확률 분포

D(· || ·) : 두 확률 분포의 차이를 재는 Divergence(KL, JSD 등)

T : 전체 토큰 길이(Teacher output sequence)

9 of 29

안 쓰는 어텐션 헤드를 잘라내서 모델을 가볍게 만드는 기술

(3) LinkedIn EMNLP 2025 분석

· Distillation–Pruning–Re-Distillation 전체 파이프라인 요약 표

단계	설명	핵심 목적
① Distillation (Teacher → Student)	- 100B Foundation Model이 Student 지도 - Forward KL(두 확률분포가 얼마나 다른지 측정) 중심 Loss(90%) - Token 오염 방지 Loss 추가	대형 모델의 지식 구조를 SLM에 이식
② Pruning (구조적 가지치기)	- Attention Head Pruning* - MLP Up/Down Projection Pruning* - One-shot보다 Gradual이 성능 안정적 - Calibration Data 사용	파라미터 수를 줄여 모델 크기·속도 최적화
③ Re-Distillation (2차 증류)	- Pruning으로 손실된 성능 회복 - Teacher를 다시 활용해 Student 재 학습	성능 복원 및 최종 품질 강화
④ Quantization (양자화 선택적)	- FP8 양자화 - Calibration Data 기반 Weight Scaling - Latency 40~50% 감소	추론 지연·메모리· 비용 절감 극대화

* Attention Head Pruning: 안 쓰는 어텐션 헤드를 잘라내서 모델을 가볍게 만드는 기술

* MLP Up/Down Projection Pruning: 기여도가 낮다고 판단되는 부분을 제거하여 모델 크기를 줄이는 방식

10 of 29

여러 단계에 걸쳐 ‘조금씩’ 줄여가는 방식의 프루닝

(3) LinkedIn EMNLP 2025 분석

· LinkedIn 실험 결과 통합 요약

실험 항목	주요 결과 (핵심 수치)	간단 해석
Validation Loss (Table 1)	- FKL→oFKL(tk=300): 0.1894 - FKL(14B)→oFKL(14B): 0.1863 (전체 최고 성능)	Different-Teacher 기반 다양한 Teacher 모델의 예측을 조합한 모델이 최고 성능
8B Distilled 모델 성능 (Table 2) (Teacher 지식을 Student 모델이 학습)	- 8B Distilled: 기준 - 6.4B Pruned + SFT: -0.47% - 6.4B Pruned + Distill: -0.06%	Pruning만 하면 성능 저하, 하지만 Distillation 결합시 성능 거의 완전 복원
Pruned 모델 비교 (Table 3) (모델 파라미터 중 중요도 낮은 것 제외)	- 6.8B Pruned: 0.0% (무손실) - 6.4B: -1.33% - 6.0B: -1.72%	6.8B까지는 성능 그대로 유지되며, 이후 손실 발생
One-step vs Gradual Pruning (Table 4)	- 3B Distilled baseline - 2.4B Prune+Distill(one-step): -0.12% - 2.4B Prune+Distill(gradual): +0.03%	* Gradual Pruning이 가장 안정적이며, Distillation과 결합 시 오히려 성능 향상 가능

(1)

(2)

(3)

(4)

* 여러 단계에 걸쳐 ‘조금씩’ 줄여가는 방식의 프루닝이며, 모델이 손실된 파라미터를 점진적으로 보완하고 적응함

11 of 29

(3) LinkedIn EMNLP 2025 분석

· Distillation와 SFT 성능 비교(1)

실험 조건 / 기법	모델 구성	AUC Delta (%)	핵심 해석
8B Distillation (KD)	8B Distilled	-0.06%	Teacher 성능과 거의 동일, 가장 안정적
8B Supervised Fine-Tuning	8B SFT	-0.62%	KD 대비 성능 큰 폭 하락
3B Distillation (KD)	3B Distilled	-0.15%	작은 Student에서도 KD 효과 유지
3B Supervised Fine-Tuning	3B SFT	-1.21%	저용량 모델에서 SFT 성능 손실 심각

· Pruning 단독과 Pruning & Distillation 성능 비교(2)

실험 조건 / 기법	모델 구성	AUC Delta (%)	핵심 해석
2.4B 구조적 Pruning (MLP Prune)	2.4B	기준	첫 단계 구조적 pruning 결과
2.1B 구조적 Pruning (MLP & Attention Prune)	2.1B	-1.07%	Pruning만 적용하면 성능 큰 폭 하락
2.1B Pruning & Distillation 결합	2.1B	+0.02%	KD 결합 시 성능 완전 복구 (오히려 상승)

(1)

(2)

12 of 29

(3) LinkedIn EMNLP 2025 분석

· 99 TTFT(100명 중 99번째로 느린 응답 시간) Latency - 비교 (Figure 3)

항목	핵심 결과(수치 중심)	간단 해석
P99 TTFT 지연 변화	• 모델 크기 : 8B → 6.4B → 3B → 2.4B → 2.1B�• 지연시간 거의 선형적으로 감소�• 8B 대비 2.1B는 약 3배 빠름	- 모델 규모 축소시 첫 토큰 응답 속도 일정한 개선 - SLM 기반의 응답 지연 최적화 효과가 큼
Context Length 영향	• 16k / 32k 모두에서 동일 패턴�• batch size=1에서도 안정적	- 모델 축소에 따라 일관된 속도 개선 효과를 가지므로 산업적 사용 가능성 높아짐

항목	핵심 결과(수치 중심)	간단 해석
양자화 정밀도 비교	• FP16 → FP8 → W8A8(INT) → W4A16(INT)�• 낮은 정밀도일수록 latency, compute cost 감소	- 정밀도 낮출수록 계산량·메모리 감소 - 특히 INT 기반이 효율적
정확도(AUC등) 영향	• W8A8, W4A16 정밀도에서도 정확도 거의 동일	- 성능 유지 및 비용 절감 가능한 spot 존재
핵심 포인트	• INT quantization이 성능 대 효율 비 가장 우수	- LinkedIn이 실제 서비스에서 INT 기반 양자화를 채택한 이유 설명 가능

· Quantization 방식 비교 (Table 6)

13 of 29

Collective All-Reduce Operation

(3) LinkedIn EMNLP 2025 분석

· Transformer Block Latency 구조 분석 (Figure 4)

항목	주요 결과	해석
Transformer Block Latency Breakdown	구성 요소별 시간 비중 분석�• Attention이 Latency에 가장 큰 비중�• MLP / AllReduce는 상대적으로 낮음	긴 context 처리 시 Attention이 근본 병목임
Context Length 증가 효과	• 길어질수록 Attention latency 급증하여 병목 효과 강화(16k->32k)	긴 문서 요약 등이 느려지는 원인을 설명
Pruning 영향	• Pruning 후에도 Attention 구조는 거의 동일�• MLP/AllReduce 쪽만 줄어듦	파라미터 축소만으로는 긴 context 병목 해결 어려움
결론 요약	• Pruning으로도 어느 정도 효과는 있음�• 단, Long Context 문제는 별도 최적화 필요	Attention 연산의 구조적 특성으로 인해 long-context 환경에서는 추가적인 접근이 필요함을 보여줌

*MLP(Multi-Layer Perceptron) = Transformer 블록 안의

Feed-Forward Network 부분

*AllReduce(Collective All-Reduce Operation) = GPU 간에

중간 계산 결과를 서로 합치고 다시 뿌리는 통신 연산

*Attention = 문장 속 단어들이 서로를 바라보는 계산

14 of 29

논문명 / 연도 Active Large Language Model-based Knowledge Distillation for Session-based Recommendation (AAAI 2025)연구기관 NTU(싱가포르), SUTD, 연세대핵심 주제 Session-based Recommendation(SBR)에서 LLM Teacher → Student 추천모델로 KD 수행문제의식 ① LLM inference 비용 너무 비쌈② LLM이 모든 세션에서 효과적인 예측을 하지 않음 (effective / similar / incorrect 케이스 혼재)주요 기여(특징) - Active KD: 전체 데이터가 아니라 “효과적인 세션만” 선택해 distillation- Difficulty × Effect 기반 Expected Gain 모델링- 이득 최소값을 최대화(Max-min)하는 instance selection 전략- LLM 기반 KD 비용 90%↓, SBR 성능 SOTA 연관성 GPT-4-Turbo를 Teacher로 사용하여 session ranking 리스트 생성 → Student가 pairwise loss로 모방유형 학술형(AI 이론 + 추천 알고리즘 연구)

(4) ALKDRec AAAI 2025 분석

· ALKDRec (AAAI 2025) 논문 요약 소개

구분	내용
논문명 / 연도	Active Large Language Model-based Knowledge Distillation for Session-based Recommendation (AAAI 2025)
연구기관	NTU(싱가포르), SUTD, 연세대
핵심 주제	LLM Teacher–SLM Student 구조를 Session 기반 추천에 적용하기 위해, 모델 압축·지식증류·양자화를 통합한 고효율 프레임워크를 제시
문제의식	LLM inference 비용 너무 비쌈 LLM이 모든 세션에서 효과적인 예측을 하지 않음 (effective / similar / incorrect 케이스 혼재)
주요 기여(특징)	Active KD: 효과적인 세션만 선택해 Expected Gain 모델링 이득 최소값을 최대화(Max-min)하는 instance selection 전략 LLM 기반 KD 비용 90% 낮추고, SBR 성능 SOTA 달성
유형	학술형(AI 이론 및 추천 알고리즘 연구)

15 of 29

ALKDRec는 세션 선택 확률(p*)과 조합(ĉ)의 Expected Gain 경계(하한~상한)를 이론적으로 규명함하한 = 상한 = Γ(k*) → Active KD의 선택이 최적(Optimal)임이, ALKDRec의 성능 향상은 아니라 이론적 근거까지 완비된

(4) ALKDRec AAAI 2025 분석

· Expected Gain 및 하한 상한 수학 공식

(1) Expected Gain 정의

어떤 세션을 선택했을 때(student에게 도움이 되는지)의 기대 이득을 계산

ALKDRec는 세션 선택 확률(p*)과 조합(ĉ)의 Expected Gain 경계(하한~상한) 규명
하한 = 상한 = Γ(k*) → Active KD의 선택이 최적(Optimal)임이 수학적으로 보장됨
ALKDRec의 성능 향상은 실험 결과뿐 아니라 이론적 근거가 있다는 의미

(2) Theorem 1 & 2 관련 “하한 = 상한 = Γ(k*)” 공식

- Active KD 선택 전략 기반 Expected Gain의 하한과 상한이 같은 지점으로 만남

16 of 29

(4) ALKDRec AAAI 2025 분석

· ALKDRec 전체 구조 요약

모듈	설명
Module 1 – LLM Teacher 강화	기존 추천기의 예측을 기반으로 LLM Teacher를 도메인 특화 형태로 조정(fine-tune)
Module 2 – LLM 지식 증류(KD)	LLM Teacher가 생성한 Ranking과 Feedback을 Student가 pairwise loss(두 아이템 간의 상대적 순서를 맞추는 것)로 학습
Module 3 – Active Learning	가장 gain 높은 세션만 선택하여 KD 비용 줄이고 성능은 올리며 Gain은 Effective/Similar/Incorrect로 분류해 계산
최종 결과 요약	비용 90% 줄이고, SBR SOTA를 달성하여 Teacher보다 성능 더 나은 Student 모델 구현

17 of 29

히 FPMC / AttMix 같은 미약하거나 복잡한 모델일수록 KD 효과가 크게 나타남Hetrec에서는 +30% 이상, AmazonGames에서도 +15~36% 수준의 개선Active KD 선택 정책이 효율적으로 informative한 세션만 학습한 결과

(4) ALKDRec AAAI 2025 분석

· Table 1 – ALKDRec 성능 결과

- FPMC / AttMix에서 특히 case별 KD(Knowledge Distillation) 효과가 크게 나타남

(Hetrec FPMC에서는 +30% 이상, AmazonGames AttMix에서도 +1~36% 수준의 개선)

- Active KD 선택 정책이 효율적으로 informative한 세션만 학습한 결과임

- 데이터 특성에 따라 향상 폭은 다르게 나타나며, Amazon-Games에서는 AttMix 같은

복합 구조 모델에서 가장 큰 개선폭(32–36%)이 관찰

18 of 29

ALKDRec의 session-level optimal sampling + teacher correction 델에서도 정보 효율성과 noise-robustness를 이론적으로 보장하기 때문

(4) ALKDRec AAAI 2025 분석

· Latent Dimension 변화 실험 요약표

Latent Dimension(d)	Student	ALKDRec	해석
10 ~ 20	낮은 성능	ALKDRec가 큰 폭으로 앞섬	작은 모델일수록 LLM KD 효과 극대화
30 ~ 50	Student도 약간 향상	ALKDRec는 안정적 최고 성능 유지	dimension 커져도 ALKDRec 우위 고정

· Correction Rate 변화 실험 요약표

Correction Rate	Student 변화	ALKDRec 변화	해석
10% ~ 50%	성능 기복 심함 (불안정)	거의 변동 없음	ALKDRec는 Noise-robust 구조
60% ~ 90%	정확도 급락	ALKDRec는 여전히 안정적 유지	Active Learning 기반 KD의 효과

ALKDRec의 session-level optimal sampling 및 teacher correction 구조가

정보 효율성과 noise-robustness를 이론적으로 보장

19 of 29

ALKDRec는 모든 baselines(TR, Random, Easiest, Hardest, RAD-BC)를 일관되게 능가하며, 효율적인 세션 선택 기제가 성능의 핵심 원인임을 확인

(4) ALKDRec AAAI 2025 분석

· Backbone 모델별 Distillation 성능 향상 비교

- ALKDRec

(1) 모든 Backbone/모든 Dataset에서 최상위이며, 일관되게 모든 baselines 능가

(2) 6가지 백본 조합과 metric 전체에서 효율적인 세션 선택 기제가 성능의 핵심 원인

- Random/Easiest/Hardest

(1) 무작위(Random): 정보가치 없는 샘플 다수 포함

(2) 성능 약함(Easiest) : 너무 쉬워서 KD 효과 적음, 성능 어려움(Hardest): 너무 어려워 KD 전달 어려움

- RAD-BC(기존 Active Learning 기반)보다도 ALKDRec가 우위

(1) RAD-BC도 성능은 양호

(2) 그러나 결론은 ALKDRec가 Expected Gain 기반 최적화 덕분에 항상 한 단계 더 높음

20 of 29

두 데이터셋 모두 “Effective 세션 비율이 높고 Similar 세션이 적당히 포함될 때” ALKDRec의 ndcg@10 성능이 가장 높아진다.

(4) ALKDRec AAAI 2025 분석

· Effective(teacher 모델이 정확한 정답을 제공한 세션) / Similar(Student의 예측 경향과 패턴이 비슷한 세션)실험 요약

두 데이터셋 모두 Effective(정확한 Teacher 예측)보다 Similar(유사 패턴 세션)의 비율이 중요하며, Effective=1 및 Similar=5 조합에서 ALKDRec이 가장 높은 ndcg@10을 달성

관찰 포인트	Hetrec2011-ML 결과	Amazon-Games 결과
성능 최고 조합	Effective=1, Similar=5 → 0.01019	Effective=1, Similar=5 → 0.02610
Effective 증가 효과	Effective가 증가할수록 성능 감소	동일하게 Effective 증가 시 감소 경향
Similar 증가 효과	Similar=5에서 최상, Similar=7로 가면 감소	Similar=5에서 최상, Similar=7에서 감소
전반적 패턴	Effective 적고 Similar 비율이 중간 수준(=5)일 때 최고	두 데이터 모두 동일 패턴 재현
핵심 원인	Student에 과도한 “정답-only(Eff)” 제공 시 일반화 낮아짐	비슷한 세션(Sim)이 다양성을 제공해 KD 효과 상승

* 결과값은 NDCG(Normalized Discounted Cumulative Gain) 기준

21 of 29

두 데이터셋 모두 “Effective 세션 비율이 높고 Similar 세션이 적당히 포함될 때” ALKDRec의 ndcg@10 성능이 가장 높아진다.

(4) ALKDRec AAAI 2025 분석

· 세션 수 증가에 따른 추천 성능 변화 (*ndcg@5/10)

ALKDRec는 400~500개의 선택된 세션만으로도 최고 성능을 달성하며,

세션 수를 지나치게 늘려도 성능 향상이 없어 Active KD의 효율성 입증

관찰 항목	Hetrec2011-ML	Amazon-Games	해석 요약
세션 수 100~200	ndcg@10·ndcg@5 모두 빠르게 상승	두 지표 모두 뚜렷한 상승	적은 세션도 KD 효과 큼 (초기 학습 효율 높음)
세션 수 400~500	최고 성능 구간(특히 ndcg@10)	ndcg@10·ndcg@5 모두 안정적 최고 수준	최적 KD 샘플 수: 400~500개
세션 수 800~1000	성능 plateau, 소폭 하락	거의 변화 없음, 상승 멈춤	세션 수를 더 늘려도 이득 감소 (비효율적)
전반적 패턴	세션 수 증가 할수록 일정 지점까지 성능 향상 후 감소	복잡 데이터지만 동일한 상승· 안정 패턴 존재	Active KD가 “필요한 만큼만” 샘플을 뽑아도 충분하다는 근거

* ndcg@5/10 = 정답 아이템을 얼마나 상단에 올려놨는지 평가점수이며 top 5/10까지의 지표

22 of 29

LinkedIn 논문이 “산업 현장에서 당장 수 있음

(5) 논문 비교 및 통합 인사이트

· 두 논문 비교 분석 요약

구분	LinkedIn EMNLP 2025	ALKDRec AAAI 2025
연구 목표	대형 LLM을 실시간 산업용 추천시스템에 배포 가능하게 만들기 (latency·비용 최소화)	세션 기반 추천(SBR)에서 최소한의 세션으로 최대 KD 효과 내는 Active KD 전략 설계
핵심 아이디어	100B LLM → 3B SLM: Multi-step Distillation & Progressive Pruning & FP8 Quantization	Effective / Similar / Incorrect 세션에 대해 Expected Gain을 최대화하는 확률분포 p*와 조합 ĉ 설계
KD 전략	Teacher(100B) → Student(3B)로 여러 번 재 증류	LLM Teacher(GPT-4 Turbo) 랭킹을 기준으로, 정보량 높은 세션만 골라 KD
효율화 성과	- 모델 33배 축소 (100B → 3B)�- AUC 손실 0.06% 이내�- P99 TTFT 2.3배 개선, GPU 메모리 80% 절감	- 모든 backbone에서 +10~36% 성능 향상�- 400~600개 세션만으로 최고 성능�- Baseline 대비 비용 약 10배 개선
실무적 기여	실제 대규모 서비스에서 SLM 기반 LLM 추천 시스템이 이미 동작 중이라는 강력한 사례	“어떤 세션을 학습에 쓸 것인가?”에 대한 일반적인 설계 원칙 제공
시사점 (한국 기업 관점)	통신·플랫폼에서 LLM을 쓸 때도 3B급 SLM & FP8 & 프루닝 같은 효율화 가능	잘 고른 세션 및 Active KD 만으로 효율적이고 높은 성능을 노릴 수 있음

LinkedIn 논문이 “산업 현장에서 당장 쓸 수 있는 효율화 레시피”라면,

ALKDRec논문은 “그 효율화를 더 정확하고 안정적으로 만들기 위한 이론적 Active KD 설계도”

23 of 29

LinkedIn 논문이 “산업 현장에서 당장 수 있음

(5) 논문 비교 및 통합 인사이트

· 두 개 논문 분석에 대한 최종 인사이트 정리

[LinkedIn 연구 ]

[ALKDRec 연구]

작고 빠르게 만들면서

성능은 유지하는 방법

(운용 효율화)

LLM이 가진 추천 성능을

Student에게 얼마나

효과적으로 이전할 것인가

(KD 지식 전이)

SLM은 결국

“LLM의 능력을 얼마나 싸게, 가볍게, 그리고 효율적으로 복제할 수 있는가”

가 핵심

24 of 29

LinkedIn 논문이 “산업 현장에서 당장 쓸 수 있는 수 있음

(6) 논문의 한계

· 두 논문의 한계점

두 논문 모두 추천 시스템 효율화에 의미 있는 성과를 제시하지만�멀티모달 확장, 실시간 적응형 학습, Teacher 비용 절감 같은 영역은 추가 연구 필요

구분	LinkedIn EMNLP 2025	ALKDRec AAAI 2025
모달리티 측면	텍스트와 사용자 로그 중심으로 설계되어 있으며, 멀티모달 정보 활용은 제한적임	텍스트 기반 LLM의 랭킹 정보만 사용하여 이미지나 그래프 등 다양한 신호는 고려되지 않음
LLM 활용 범위	LLM의 출력 확률을 주로 활용하는 방식이며, 내부 표현이나 구조의 활용은 상대적 부족	랭킹 중심 KD 방식이기 때문에 LLM 내부 표현을 직접적인 형태로 전달하는 구조는 아님
실시간 적응성	실제 서비스 배포는 강점이 있으나, 사용자 행동 변화를 실시간으로 반영하는 학습 체계는 충분히 다뤄지지 않음	오프라인 환경에서의 KD가 중심이며, 스트리밍 환경에서의 적응형 학습은 포함되어 있지 않음
데이터·도메인 확장성	LinkedIn 플랫폼 중심의 구조라 다양한 도메인으로의 확장 검증은 제한적임	벤치마크 데이터 기반이라 대규모 실사용 환경에서의 검증은 필요
Teacher 비용 구조	Teacher LLM을 계속 호출해야 하는 부분은 비용 부담으로 남아 있음	KD 자체는 효율적이지만 Teacher 모델 호출 비용 문제는 존재

25 of 29

LinkedIn 논문이 “산업 현장에서 당장 쓸 수 있는 볼 수 있음

(7) 추가 연구 필요한 방향

· 추가 연구 가능성이 높은 방향

멀티모달 정보, 내부 표현 기반 지식전달, 실시간 적응형 학습 등은�두 논문 모두 다루지 못한 영역이며 향후 추천 시스템 연구의 중요한 확장 포인트가 될 수 있음

연구 방향	설명
Multimodal KD	텍스트뿐만 아니라 이미지, 비디오, 행동 로그 등 여러 형태의 정보를 함께 활용하는 지식전달 기법에 대한 연구 필요
Embedding·Representation 기반 KD	LLM의 내부 표현이나 패턴을 학생 모델로 전달하는 심층적인 지식 이전 방식에 대한 연구 가능성이 큼
Online·Streaming 기반 KD	변화하는 사용자 행동을 실시간으로 반영할 수 있는 적응형 KD 구조로 확장하는 연구 필요
Teacher-free 또는 Self-Distillation	Teacher LLM 의존도를 줄여 비용 부담을 낮출 수 있는 경량 Teacher 또는 자기 증류 방식 연구 가능
Reasoning 기반 KD	LLM의 추론 과정이나 사고 흐름을 학생 모델로 이전하는 방식에 대한 연구가 점차 중요해짐

26 of 29

Multimodal KD – 안정적 수렴 결과Loss가 4.3 → 0.01로 빠르게 감소 (100 steps)Cross-modal 정합 구조를 Student가 완전히 학습안정화 기법을 통한 NaN 없는 robust training 달성

(8) Multimodal KD Prototype 구현

· 구글코랩 코드로 Multimodal KD Prototype 1차 구현 및 분석

항목	값 / 특징	의미
초기 Loss	~4.3	KD가 올바르게 초기화되었는지 점검하는 단계
10 step 후	0.25 이하	Teacher의 logits 분포를 Student가 빠르게 모방하기 시작
최종 Loss	0.0107	Distillation 자체는 정상적으로 수렴함을 확인
학습 시간	100 step ≈ 1–3초	프로토타입 KD 구조에서 빠른 수렴 및 동작 확인 단계

Multimodal KD Prototype – 1차 안정적 수렴 결과 확인

- Teacher의 예측 확률(logits) 분포를 Student가 정상적으로 모방함을 확인

- 프로토타입 수준에서 KD 작동 여부 및 수렴 안정성 검증 성공

27 of 29

1차 실험은 Multimodal KD의 가능성만 확인한 Prototype이며,2차 실험은 Teacher Confidence 기반 Active KD 전략이 실제로 안정적·효율적임을 검증한 완성형 실험이다.

(8) Multimodal KD Prototype 구현

· 구글코랩 코드로 Multimodal KD Prototype 2차 구현 및 분석

1차 실험은 멀티모달 입력 사용시 Teacher–Student KD가 정상적으로 수렴하는지 확인하였고,�2차 실험은 Teacher Confidence 기반 Active KD가 샘플 선택 전략을 통해 안정성 효율성을 개선하는지 검증

* Difficulty = Student에게 얼마나 어려운 세션인가?

* Effect = Teacher의 정답이 정확한가

* Confidence= Teacher가 그 세션에서 얼마나 확신 있게 정답을 말하는가

항목	1차 실험	2차 실험
초기 Loss	약 4.3	약 0.007
최종 Loss	약 0.0107	약 0.001 ~ 0.0011
학습 방식	단순 KL Distillation	Active KD (Difficulty* × Effect* × Confidence*)
데이터 사용 방식	전체 샘플 동일 가중	상위 30% informative sample만 선택
학습 길이	100 steps	200 epoch
의미 / 목적	KD 기본 작동 확인	샘플 선택 기반 Active KD의 수렴 안정성·효율성 검증

28 of 29

SLM(student)이 Teacher의 멀티모달 표현구조(이미지·텍스트·cross-modal 관계)를 학습하는 과정의 ‘축소 버전(Minimal Working Example)’로서 완전히 타당하고 논문·PPT에서 “예시 코드”로 제시

(8) Multimodal KD Prototype 구현

· Multimodal KD Prototype 코드 상세 구현 사항

본 구현은 SLM(Student)이 Teacher의 Soft Label을 활용하여�멀티모달 입력(이미지·텍스트)에 대한 Teacher의 출력 패턴을 모방하는�축소 버전 형태의 KD 실험이며 이를 간단히 구글코랩으로 재현하고 분석을 완료

구성 요소	코드 구현 방식	의미(역할)
Soft Label KD (KL Distillation)	KD_loss = KL (teacher_logits, student_logits)	Teacher의 확률 분포(logits)를 Student가 모방하여 전반적 지식을 계승
Difficulty Weighting	difficulty = cross_entropy (student, target) / max_ce	Student가 어려워하는 샘플일수록 더 높은 difficulty 값을 가지며 Active KD에서 샘플 우선순위에 반영
Effect Weighting	effect = softmax(teacher_logits)[target]	Teacher가 정답 클래스에 부여한 확률값을 반영하여 샘플 중요도를 측정
Teacher Confidence	confidence = max_softmax(teacher_logits)	Teacher가 해당 샘플을 얼마나 확신하는지 측정하여 GAIN 계산에 사용
Active KD (상위 30% Informative Sample 선택)	GAIN = difficulty * effect * confidence 상위 30% 샘플만 학습	Expected Gain이 높고 정보량 높은 샘플만 선별하여 KD 효율 극대화

1 of 29

2 of 29

3 of 29

4 of 29

5 of 29

6 of 29

7 of 29

8 of 29

9 of 29

10 of 29

11 of 29

12 of 29

13 of 29

14 of 29

15 of 29

16 of 29

17 of 29

18 of 29

19 of 29

20 of 29

21 of 29

22 of 29

23 of 29

24 of 29

25 of 29

26 of 29

27 of 29

28 of 29

29 of 29