논문 분석:
추천 시스템을 위한 최신 LLM 효율화 전략 (LinkedIn & Active KD)
20249525 이범열
연구 추진 배경LLM과 추천시스템의 구조LinkedIn EMNLP 2025 분석ALKDRec AAAI 2025 분석비교 및 통합 인사이트한계 및 향후 과제결론
(2) 연구배경과 논문 소개
(3) LinkedIn EMNLP 2025 분석
(4) ALKDRec AAAI 2025 분석
(5) 논문 비교 및 통합 인사이트
(6) 논문의 한계
(7) 추가 연구 필요한 방향
(8) Multimodal KD Prototype 구현
목차
· 인공지능 추천시스템에서 LLM(Large Language Model)이 등장한 이유와 한계 정리
구분 | 내용 |
추천시스템 진화(2025) | DNN → Transformer → LLM 기반 추천 (Context 및 논리적 Reasoning 강화) |
LLM의 강점 | 사용자 의도 해석, 긴 시퀀스 이해, 맥락 기반 추천 가능 |
LLM의 한계(기술) | - 추론 지연 및 메모리 요구량 증가
|
LLM의 한계(산업) | - GPU 운영비 증가 및 대규모 트래픽 대응 어려움 - 사내 적용 시 보안·데이터 이슈 |
한국이 가야 할 방향: 초거대 모델 경쟁이 아니라 “효율화 한국은 최적화·경량화·통신·단말기·AI반도체 분야에서 세계적 DeepSeek의 전략처럼**“대형 Teacher → SLM(Student) distillation”**이 훨씬 현실적이고 효과적
· LLM을 병행한 SLM(Small Language Model)이 등장한 이유와 관련 설명
이유 | 설명 |
효율성 및 비용 | GPU·전력·비용을 크게 절감하면서 성능은 유지 |
실시간성 | 모바일·서비스 백엔드에서 지연 없이 실행 가능 |
적용 확장성 | 사내 데이터·지자체·금융·의료 등 규제 산업에 적합 |
보안성 | On-premise/Edge inference 가능하여 데이터 유출 리스크 감소 |
- 글로벌 산업은 비용·지연·보안 문제로 인해 LLM과 SLM병행 전략이 트렌드
(GPT-4o mini, DeepSeek, Phi-3, Mini CPM 등 LLM기반 SLM 효율화 전략 추진 중)
- 한국 기업의 자체 초거대 모델 개발에는 비용 부담이 매우 큼
- 도메인을 좁히거나 Agent 등으로 역할을 분리하는 경우 LLM과 SLM병행이 최선 전략
- 한국 기업들의 AI적용 전략도 대형 Teacher기반 SLM(Student) distillation이 현실적
LLM
(Large Language Model)
SLM
(Small Language Model)
LLM과 SLM 병행이 가성비 있는 접근
한국이 가야 할 방향: 초거대 모델 경쟁이 아니라 “효율화 한국은 최적화·경량화·통신·단말기·AI반도체 분야에서 세계적 DeepSeek의 전략처럼**“대형 Teacher → SLM(Student) distillation”**이 훨씬 현실적이고 효과적
· KD(Knowledge Distill)관련 설명
구분 | 내용 |
정의 | 대형 LLM(Teacher)의 지식·추론 능력을 경량 SLM(Student)에 압축·전수하는 기법 |
목적 | 성능은 최대한 유지하면서 비용·지연·메모리 사용량을 최소화 |
구조 | Teacher LLM → 고품질 답변· Reasoning· Ranking 생성 → Student SLM이 이를 모사 |
학습 방식 | Soft Label KD* · Forward KL* · Pairwise Ranking KD* · Response Distillation |
장점 | • Teacher 성능 거의 그대로 유지 가능�• 데이터 유출 위험 감소(사내 SLM 구축) 및 도메인 특화 Agent 개발에 적합 |
KD는 LLM의 지능을 SLM에 압축해 전달하는 기술로,�성능 대비 비용·지연 절감 효과가 가장 큰 실무형 AI 전략
* Soft Label KD: Teacher가 예측한 확률분포(soft label)를 Student가 그대로 따라하도록 학습
* Forward KL: Teacher의 출력 분포와 Student 분포가 최대한 동일해지도록 KL Divergence로 정렬
* Pairwise Ranking KD : Teacher가 판단한 “A가 B보다 더 선호된다” 같은 순위 관계(pairwise)를 Student가 학습
(2) 연구 배경과 논문 소개
· 산업계가 선택하는 방향과 최신 트렌드 논문 2가지 소개
[Scaling Down, Serving Fast: Compressing and Deploying Efficient LLMs for
Recommendation Systems]
[Active Large Language Model-based Knowledge Distillation for Session-based Recommendation]
논문 | 문제 설정 | 제안 방식 | 산업적 의미 |
LinkedIn Scaling Down, Serving Fast | LLM의 높은 추론비용·지연 | Distillation·Compression 기반 SLM 구축 | - 운영(Serving) 비용 대폭 절감�- 100B → 3B(2.1B까지) 압축, 성능 유지�- 대규모 추천 서비스에서 효율적 LLM 적용 사례 |
Active LLM-based KD | Teacher 오류 전이에 따른 비효율적 KD | Teacher 예측을 선별하는 Active Filtering | - 학습(KD) 비용 절감 및 Student 품질 개선�- Session-based Recommendation에서 효과�- 순위·정렬 기반 추천 모델의 경량화 품질 향상 |
(3) LinkedIn EMNLP 2025 분석
· LinkedIn EMNLP Industry (LinkedIn, Google 등의 실제 시스템 적용 사례를 다룬 세션) 2025 논문 요약
구분 | 내용 |
논문명 / 연도 | Scaling Down, Serving Fast: Compressing and Deploying Efficient LLMs for Recommendation Systems (EMNLP Industry 2025) |
연구기관 | LinkedIn AI Research (Microsoft / LinkedIn Relevance & AI Team) |
핵심 주제 | 대형 LLM(100B)을 실시간 인공지능 추천 시스템에 적용하기 위한 경량화·압축·지식증류(SLM) 기반 효율화 기술 개발 |
문제의식 | - 대형 LLM은 너무 느리고 비용이 매우 높아 실시간 추천 적용 불가능 �- 기존 경량화는 성능 손실이 커서 실서비스 적용 어려움 |
주요 기여(특징) | - 100B → 3B, 약 33배 축소하면서 AUC 0.06% 이내 성능 유지 �- 실제 LinkedIn Feed / Search / Job Recommendation 시스템에 상용 배포 �- P99 TTFT Latency 2.3배 개선, GPU Memory 80% 절감 |
유형 | - 산업 적용형(Industrial Engineering Paper) �- 실제로 배포 가능한 인공지능 추천 시스템(LLM 기반 RecSys) 구축 |
(3) LinkedIn EMNLP 2025 분석
· Knowledge Distillation(KD) Loss 개념 및 수학 공식
- KD(Knowledge Distillation)는 Teacher(대형 LLM)이 가진 확률 분포 정보를 Student
(작은 SLM)에게 그대로 전수하는 학습 방식
- 이때 사용되는 핵심 목적함수가 바로 KD Loss이며, Teacher와 Student의
출력 확률 분포 사이의 차이를 최소화
- 수식의 의미 : Teacher와 Student가 특정 시점(t)에서 예측하는 ‘다음 토큰 확률 분포’가
얼마나 다른지, 그 차이를 전체 토큰 길이(T)에 걸쳐 모두 더한 값이 KD Loss
안 쓰는 어텐션 헤드를 잘라내서 모델을 가볍게 만드는 기술
(3) LinkedIn EMNLP 2025 분석
· Distillation–Pruning–Re-Distillation 전체 파이프라인 요약 표
단계 | 설명 | 핵심 목적 |
① Distillation (Teacher → Student) | - 100B Foundation Model이 Student 지도 - Forward KL(두 확률분포가 얼마나 다른지 측정) 중심 Loss(90%) - Token 오염 방지 Loss 추가 | 대형 모델의 지식 구조를 SLM에 이식 |
② Pruning (구조적 가지치기) | - Attention Head Pruning* - MLP Up/Down Projection Pruning* - One-shot보다 Gradual이 성능 안정적 - Calibration Data 사용 | 파라미터 수를 줄여 모델 크기·속도 최적화 |
③ Re-Distillation (2차 증류) | - Pruning으로 손실된 성능 회복 - Teacher를 다시 활용해 Student 재 학습 | 성능 복원 및 최종 품질 강화 |
④ Quantization (양자화 선택적) | - FP8 양자화 - Calibration Data 기반 Weight Scaling - Latency 40~50% 감소 | 추론 지연·메모리· 비용 절감 극대화 |
* Attention Head Pruning: 안 쓰는 어텐션 헤드를 잘라내서 모델을 가볍게 만드는 기술
* MLP Up/Down Projection Pruning: 기여도가 낮다고 판단되는 부분을 제거하여 모델 크기를 줄이는 방식
여러 단계에 걸쳐 ‘조금씩’ 줄여가는 방식의 프루닝
(3) LinkedIn EMNLP 2025 분석
· LinkedIn 실험 결과 통합 요약
실험 항목 | 주요 결과 (핵심 수치) | 간단 해석 |
Validation Loss (Table 1) | - FKL→oFKL(tk=300): 0.1894 - FKL(14B)→oFKL(14B): 0.1863 (전체 최고 성능) | Different-Teacher 기반 다양한 Teacher 모델의 예측을 조합한 모델이 최고 성능 |
8B Distilled 모델 성능 (Table 2) (Teacher 지식을 Student 모델이 학습) | - 8B Distilled: 기준 - 6.4B Pruned + SFT: -0.47% - 6.4B Pruned + Distill: -0.06% | Pruning만 하면 성능 저하, 하지만 Distillation 결합시 성능 거의 완전 복원 |
Pruned 모델 비교 (Table 3) (모델 파라미터 중 중요도 낮은 것 제외) | - 6.8B Pruned: 0.0% (무손실) - 6.4B: -1.33% - 6.0B: -1.72% | 6.8B까지는 성능 그대로 유지되며, 이후 손실 발생 |
One-step vs Gradual Pruning (Table 4) | - 3B Distilled baseline - 2.4B Prune+Distill(one-step): -0.12% - 2.4B Prune+Distill(gradual): +0.03% | * Gradual Pruning이 가장 안정적이며, Distillation과 결합 시 오히려 성능 향상 가능 |
(1)
(2)
(3)
(4)
* 여러 단계에 걸쳐 ‘조금씩’ 줄여가는 방식의 프루닝이며, 모델이 손실된 파라미터를 점진적으로 보완하고 적응함
(3) LinkedIn EMNLP 2025 분석
· Distillation와 SFT 성능 비교(1)
실험 조건 / 기법 | 모델 구성 | AUC Delta (%) | 핵심 해석 |
8B Distillation (KD) | 8B Distilled | -0.06% | Teacher 성능과 거의 동일, 가장 안정적 |
8B Supervised Fine-Tuning | 8B SFT | -0.62% | KD 대비 성능 큰 폭 하락 |
3B Distillation (KD) | 3B Distilled | -0.15% | 작은 Student에서도 KD 효과 유지 |
3B Supervised Fine-Tuning | 3B SFT | -1.21% | 저용량 모델에서 SFT 성능 손실 심각 |
· Pruning 단독과 Pruning & Distillation 성능 비교(2)
실험 조건 / 기법 | 모델 구성 | AUC Delta (%) | 핵심 해석 |
2.4B 구조적 Pruning (MLP Prune) | 2.4B | 기준 | 첫 단계 구조적 pruning 결과 |
2.1B 구조적 Pruning (MLP & Attention Prune) | 2.1B | -1.07% | Pruning만 적용하면 성능 큰 폭 하락 |
2.1B Pruning & Distillation 결합 | 2.1B | +0.02% | KD 결합 시 성능 완전 복구 (오히려 상승) |
(1)
(2)
(3) LinkedIn EMNLP 2025 분석
· 99 TTFT(100명 중 99번째로 느린 응답 시간) Latency - 비교 (Figure 3)
항목 | 핵심 결과(수치 중심) | 간단 해석 |
P99 TTFT 지연 변화 | • 모델 크기 : 8B → 6.4B → 3B → 2.4B → 2.1B�• 지연시간 거의 선형적으로 감소�• 8B 대비 2.1B는 약 3배 빠름 | - 모델 규모 축소시 첫 토큰 응답 속도 일정한 개선 - SLM 기반의 응답 지연 최적화 효과가 큼 |
Context Length 영향 | • 16k / 32k 모두에서 동일 패턴�• batch size=1에서도 안정적 | - 모델 축소에 따라 일관된 속도 개선 효과를 가지므로 산업적 사용 가능성 높아짐 |
항목 | 핵심 결과(수치 중심) | 간단 해석 |
양자화 정밀도 비교 | • FP16 → FP8 → W8A8(INT) → W4A16(INT)�• 낮은 정밀도일수록 latency, compute cost 감소 | - 정밀도 낮출수록 계산량·메모리 감소 - 특히 INT 기반이 효율적 |
정확도(AUC등) 영향 | • W8A8, W4A16 정밀도에서도 정확도 거의 동일 | - 성능 유지 및 비용 절감 가능한 spot 존재 |
핵심 포인트 | • INT quantization이 성능 대 효율 비 가장 우수 | - LinkedIn이 실제 서비스에서 INT 기반 양자화를 채택한 이유 설명 가능 |
· Quantization 방식 비교 (Table 6)
Collective All-Reduce Operation
(3) LinkedIn EMNLP 2025 분석
· Transformer Block Latency 구조 분석 (Figure 4)
항목 | 주요 결과 | 해석 |
Transformer Block Latency Breakdown | 구성 요소별 시간 비중 분석�• Attention이 Latency에 가장 큰 비중�• *MLP / *AllReduce는 상대적으로 낮음 | 긴 context 처리 시 Attention이 근본 병목임 |
Context Length 증가 효과 | • 길어질수록 Attention latency 급증하여 병목 효과 강화(16k->32k) | 긴 문서 요약 등이 느려지는 원인을 설명 |
Pruning 영향 | • Pruning 후에도 Attention 구조는 거의 동일�• MLP/AllReduce 쪽만 줄어듦 | 파라미터 축소만으로는 긴 context 병목 해결 어려움 |
결론 요약 | • Pruning으로도 어느 정도 효과는 있음�• 단, Long Context 문제는 별도 최적화 필요 | Attention 연산의 구조적 특성으로 인해 long-context 환경에서는 추가적인 접근이 필요함을 보여줌 |
*MLP(Multi-Layer Perceptron) = Transformer 블록 안의
Feed-Forward Network 부분
*AllReduce(Collective All-Reduce Operation) = GPU 간에
중간 계산 결과를 서로 합치고 다시 뿌리는 통신 연산
*Attention = 문장 속 단어들이 서로를 바라보는 계산
논문명 / 연도 Active Large Language Model-based Knowledge Distillation for Session-based Recommendation (AAAI 2025)연구기관 NTU(싱가포르), SUTD, 연세대핵심 주제 Session-based Recommendation(SBR)에서 LLM Teacher → Student 추천모델로 KD 수행문제의식 ① LLM inference 비용 너무 비쌈② LLM이 모든 세션에서 효과적인 예측을 하지 않음 (effective / similar / incorrect 케이스 혼재)주요 기여(특징) - Active KD: 전체 데이터가 아니라 “효과적인 세션만” 선택해 distillation- Difficulty × Effect 기반 Expected Gain 모델링- 이득 최소값을 최대화(Max-min)하는 instance selection 전략- LLM 기반 KD 비용 90%↓, SBR 성능 SOTA 연관성 GPT-4-Turbo를 Teacher로 사용하여 session ranking 리스트 생성 → Student가 pairwise loss로 모방유형 학술형(AI 이론 + 추천 알고리즘 연구)
(4) ALKDRec AAAI 2025 분석
· ALKDRec (AAAI 2025) 논문 요약 소개
구분 | 내용 |
논문명 / 연도 | Active Large Language Model-based Knowledge Distillation for Session-based Recommendation (AAAI 2025) |
연구기관 | NTU(싱가포르), SUTD, 연세대 |
핵심 주제 | LLM Teacher–SLM Student 구조를 Session 기반 추천에 적용하기 위해, 모델 압축·지식증류·양자화를 통합한 고효율 프레임워크를 제시 |
문제의식 |
(effective / similar / incorrect 케이스 혼재) |
주요 기여(특징) |
|
유형 | 학술형(AI 이론 및 추천 알고리즘 연구) |
ALKDRec는 세션 선택 확률(p*)과 조합(ĉ)의 Expected Gain 경계(하한~상한)를 이론적으로 규명함하한 = 상한 = Γ(k*) → Active KD의 선택이 최적(Optimal)임이, ALKDRec의 성능 향상은 아니라 이론적 근거까지 완비된
(4) ALKDRec AAAI 2025 분석
· Expected Gain 및 하한 상한 수학 공식
(1) Expected Gain 정의
(2) Theorem 1 & 2 관련 “하한 = 상한 = Γ(k*)” 공식
- Active KD 선택 전략 기반 Expected Gain의 하한과 상한이 같은 지점으로 만남
(4) ALKDRec AAAI 2025 분석
· ALKDRec 전체 구조 요약
모듈 | 설명 |
Module 1 – LLM Teacher 강화 | 기존 추천기의 예측을 기반으로 LLM Teacher를 도메인 특화 형태로 조정(fine-tune) |
Module 2 – LLM 지식 증류(KD) | LLM Teacher가 생성한 Ranking과 Feedback을 Student가 pairwise loss(두 아이템 간의 상대적 순서를 맞추는 것)로 학습 |
Module 3 – Active Learning | 가장 gain 높은 세션만 선택하여 KD 비용 줄이고 성능은 올리며 Gain은 Effective/Similar/Incorrect로 분류해 계산 |
최종 결과 요약 | 비용 90% 줄이고, SBR SOTA를 달성하여 Teacher보다 성능 더 나은 Student 모델 구현 |
히 FPMC / AttMix 같은 미약하거나 복잡한 모델일수록 KD 효과가 크게 나타남Hetrec에서는 +30% 이상, AmazonGames에서도 +15~36% 수준의 개선Active KD 선택 정책이 효율적으로 informative한 세션만 학습한 결과
(4) ALKDRec AAAI 2025 분석
· Table 1 – ALKDRec 성능 결과
- FPMC / AttMix에서 특히 case별 KD(Knowledge Distillation) 효과가 크게 나타남
(Hetrec FPMC에서는 +30% 이상, AmazonGames AttMix에서도 +1~36% 수준의 개선)
- Active KD 선택 정책이 효율적으로 informative한 세션만 학습한 결과임
- 데이터 특성에 따라 향상 폭은 다르게 나타나며, Amazon-Games에서는 AttMix 같은
복합 구조 모델에서 가장 큰 개선폭(32–36%)이 관찰
ALKDRec의 session-level optimal sampling + teacher correction 델에서도 정보 효율성과 noise-robustness를 이론적으로 보장하기 때문
(4) ALKDRec AAAI 2025 분석
· Latent Dimension 변화 실험 요약표
Latent Dimension(d) | Student | ALKDRec | 해석 |
10 ~ 20 | 낮은 성능 | ALKDRec가 큰 폭으로 앞섬 | 작은 모델일수록 LLM KD 효과 극대화 |
30 ~ 50 | Student도 약간 향상 | ALKDRec는 안정적 최고 성능 유지 | dimension 커져도 ALKDRec 우위 고정 |
· Correction Rate 변화 실험 요약표
Correction Rate | Student 변화 | ALKDRec 변화 | 해석 |
10% ~ 50% | 성능 기복 심함 (불안정) | 거의 변동 없음 | ALKDRec는 Noise-robust 구조 |
60% ~ 90% | 정확도 급락 | ALKDRec는 여전히 안정적 유지 | Active Learning 기반 KD의 효과 |
ALKDRec의 session-level optimal sampling 및 teacher correction 구조가
정보 효율성과 noise-robustness를 이론적으로 보장
ALKDRec는 모든 baselines(TR, Random, Easiest, Hardest, RAD-BC)를 일관되게 능가하며, 효율적인 세션 선택 기제가 성능의 핵심 원인임을 확인
(4) ALKDRec AAAI 2025 분석
· Backbone 모델별 Distillation 성능 향상 비교
- ALKDRec
(1) 모든 Backbone/모든 Dataset에서 최상위이며, 일관되게 모든 baselines 능가
(2) 6가지 백본 조합과 metric 전체에서 효율적인 세션 선택 기제가 성능의 핵심 원인
- Random/Easiest/Hardest
(1) 무작위(Random): 정보가치 없는 샘플 다수 포함
(2) 성능 약함(Easiest) : 너무 쉬워서 KD 효과 적음, 성능 어려움(Hardest): 너무 어려워 KD 전달 어려움
- RAD-BC(기존 Active Learning 기반)보다도 ALKDRec가 우위
(1) RAD-BC도 성능은 양호
(2) 그러나 결론은 ALKDRec가 Expected Gain 기반 최적화 덕분에 항상 한 단계 더 높음
두 데이터셋 모두 “Effective 세션 비율이 높고 Similar 세션이 적당히 포함될 때” ALKDRec의 ndcg@10 성능이 가장 높아진다.
(4) ALKDRec AAAI 2025 분석
· Effective(teacher 모델이 정확한 정답을 제공한 세션) / Similar(Student의 예측 경향과 패턴이 비슷한 세션)실험 요약
두 데이터셋 모두 Effective(정확한 Teacher 예측)보다 Similar(유사 패턴 세션)의 비율이 중요하며, Effective=1 및 Similar=5 조합에서 ALKDRec이 가장 높은 ndcg@10을 달성
관찰 포인트 | Hetrec2011-ML 결과 | Amazon-Games 결과 |
성능 최고 조합 | Effective=1, Similar=5 → 0.01019 | Effective=1, Similar=5 → 0.02610 |
Effective 증가 효과 | Effective가 증가할수록 성능 감소 | 동일하게 Effective 증가 시 감소 경향 |
Similar 증가 효과 | Similar=5에서 최상, Similar=7로 가면 감소 | Similar=5에서 최상, Similar=7에서 감소 |
전반적 패턴 | Effective 적고 Similar 비율이 중간 수준(=5)일 때 최고 | 두 데이터 모두 동일 패턴 재현 |
핵심 원인 | Student에 과도한 “정답-only(Eff)” 제공 시 일반화 낮아짐 | 비슷한 세션(Sim)이 다양성을 제공해 KD 효과 상승 |
* 결과값은 NDCG(Normalized Discounted Cumulative Gain) 기준
두 데이터셋 모두 “Effective 세션 비율이 높고 Similar 세션이 적당히 포함될 때” ALKDRec의 ndcg@10 성능이 가장 높아진다.
(4) ALKDRec AAAI 2025 분석
· 세션 수 증가에 따른 추천 성능 변화 (*ndcg@5/10)
ALKDRec는 400~500개의 선택된 세션만으로도 최고 성능을 달성하며,
세션 수를 지나치게 늘려도 성능 향상이 없어 Active KD의 효율성 입증
관찰 항목 | Hetrec2011-ML | Amazon-Games | 해석 요약 |
세션 수 100~200 | ndcg@10·ndcg@5 모두 빠르게 상승 | 두 지표 모두 뚜렷한 상승 | 적은 세션도 KD 효과 큼 (초기 학습 효율 높음) |
세션 수 400~500 | 최고 성능 구간(특히 ndcg@10) | ndcg@10·ndcg@5 모두 안정적 최고 수준 | 최적 KD 샘플 수: 400~500개 |
세션 수 800~1000 | 성능 plateau, 소폭 하락 | 거의 변화 없음, 상승 멈춤 | 세션 수를 더 늘려도 이득 감소 (비효율적) |
전반적 패턴 | 세션 수 증가 할수록 일정 지점까지 성능 향상 후 감소 | 복잡 데이터지만 동일한 상승· 안정 패턴 존재 | Active KD가 “필요한 만큼만” 샘플을 뽑아도 충분하다는 근거 |
* ndcg@5/10 = 정답 아이템을 얼마나 상단에 올려놨는지 평가점수이며 top 5/10까지의 지표
LinkedIn 논문이 “산업 현장에서 당장 수 있음
(5) 논문 비교 및 통합 인사이트
· 두 논문 비교 분석 요약
구분 | LinkedIn EMNLP 2025 | ALKDRec AAAI 2025 |
연구 목표 | 대형 LLM을 실시간 산업용 추천시스템에 배포 가능하게 만들기 (latency·비용 최소화) | 세션 기반 추천(SBR)에서 최소한의 세션으로 최대 KD 효과 내는 Active KD 전략 설계 |
핵심 아이디어 | 100B LLM → 3B SLM: Multi-step Distillation & Progressive Pruning & FP8 Quantization | Effective / Similar / Incorrect 세션에 대해 Expected Gain을 최대화하는 확률분포 p*와 조합 ĉ 설계 |
KD 전략 | Teacher(100B) → Student(3B)로 여러 번 재 증류 | LLM Teacher(GPT-4 Turbo) 랭킹을 기준으로, 정보량 높은 세션만 골라 KD |
효율화 성과 | - 모델 33배 축소 (100B → 3B)�- AUC 손실 0.06% 이내�- P99 TTFT 2.3배 개선, GPU 메모리 80% 절감 | - 모든 backbone에서 +10~36% 성능 향상�- 400~600개 세션만으로 최고 성능�- Baseline 대비 비용 약 10배 개선 |
실무적 기여 | 실제 대규모 서비스에서 SLM 기반 LLM 추천 시스템이 이미 동작 중이라는 강력한 사례 | “어떤 세션을 학습에 쓸 것인가?”에 대한 일반적인 설계 원칙 제공 |
시사점 (한국 기업 관점) | 통신·플랫폼에서 LLM을 쓸 때도 3B급 SLM & FP8 & 프루닝 같은 효율화 가능 | 잘 고른 세션 및 Active KD 만으로 효율적이고 높은 성능을 노릴 수 있음 |
LinkedIn 논문이 “산업 현장에서 당장 쓸 수 있는 효율화 레시피”라면,
ALKDRec논문은 “그 효율화를 더 정확하고 안정적으로 만들기 위한 이론적 Active KD 설계도”
LinkedIn 논문이 “산업 현장에서 당장 수 있음
(5) 논문 비교 및 통합 인사이트
· 두 개 논문 분석에 대한 최종 인사이트 정리
[LinkedIn 연구 ]
[ALKDRec 연구]
작고 빠르게 만들면서
성능은 유지하는 방법
(운용 효율화)
LLM이 가진 추천 성능을
Student에게 얼마나
효과적으로 이전할 것인가
(KD 지식 전이)
SLM은 결국
“LLM의 능력을 얼마나 싸게, 가볍게, 그리고 효율적으로 복제할 수 있는가”
가 핵심
LinkedIn 논문이 “산업 현장에서 당장 쓸 수 있는 수 있음
(6) 논문의 한계
· 두 논문의 한계점
두 논문 모두 추천 시스템 효율화에 의미 있는 성과를 제시하지만�멀티모달 확장, 실시간 적응형 학습, Teacher 비용 절감 같은 영역은 추가 연구 필요
구분 | LinkedIn EMNLP 2025 | ALKDRec AAAI 2025 |
모달리티 측면 | 텍스트와 사용자 로그 중심으로 설계되어 있으며, 멀티모달 정보 활용은 제한적임 | 텍스트 기반 LLM의 랭킹 정보만 사용하여 이미지나 그래프 등 다양한 신호는 고려되지 않음 |
LLM 활용 범위 | LLM의 출력 확률을 주로 활용하는 방식이며, 내부 표현이나 구조의 활용은 상대적 부족 | 랭킹 중심 KD 방식이기 때문에 LLM 내부 표현을 직접적인 형태로 전달하는 구조는 아님 |
실시간 적응성 | 실제 서비스 배포는 강점이 있으나, 사용자 행동 변화를 실시간으로 반영하는 학습 체계는 충분히 다뤄지지 않음 | 오프라인 환경에서의 KD가 중심이며, 스트리밍 환경에서의 적응형 학습은 포함되어 있지 않음 |
데이터·도메인 확장성 | LinkedIn 플랫폼 중심의 구조라 다양한 도메인으로의 확장 검증은 제한적임 | 벤치마크 데이터 기반이라 대규모 실사용 환경에서의 검증은 필요 |
Teacher 비용 구조 | Teacher LLM을 계속 호출해야 하는 부분은 비용 부담으로 남아 있음 | KD 자체는 효율적이지만 Teacher 모델 호출 비용 문제는 존재 |
LinkedIn 논문이 “산업 현장에서 당장 쓸 수 있는 볼 수 있음
(7) 추가 연구 필요한 방향
· 추가 연구 가능성이 높은 방향
멀티모달 정보, 내부 표현 기반 지식전달, 실시간 적응형 학습 등은�두 논문 모두 다루지 못한 영역이며 향후 추천 시스템 연구의 중요한 확장 포인트가 될 수 있음
연구 방향 | 설명 |
Multimodal KD | 텍스트뿐만 아니라 이미지, 비디오, 행동 로그 등 여러 형태의 정보를 함께 활용하는 지식전달 기법에 대한 연구 필요 |
Embedding·Representation 기반 KD | LLM의 내부 표현이나 패턴을 학생 모델로 전달하는 심층적인 지식 이전 방식에 대한 연구 가능성이 큼 |
Online·Streaming 기반 KD | 변화하는 사용자 행동을 실시간으로 반영할 수 있는 적응형 KD 구조로 확장하는 연구 필요 |
Teacher-free 또는 Self-Distillation | Teacher LLM 의존도를 줄여 비용 부담을 낮출 수 있는 경량 Teacher 또는 자기 증류 방식 연구 가능 |
Reasoning 기반 KD | LLM의 추론 과정이나 사고 흐름을 학생 모델로 이전하는 방식에 대한 연구가 점차 중요해짐 |
Multimodal KD – 안정적 수렴 결과Loss가 4.3 → 0.01로 빠르게 감소 (100 steps)Cross-modal 정합 구조를 Student가 완전히 학습안정화 기법을 통한 NaN 없는 robust training 달성
(8) Multimodal KD Prototype 구현
· 구글코랩 코드로 Multimodal KD Prototype 1차 구현 및 분석
항목 | 값 / 특징 | 의미 |
초기 Loss | ~4.3 | KD가 올바르게 초기화되었는지 점검하는 단계 |
10 step 후 | 0.25 이하 | Teacher의 logits 분포를 Student가 빠르게 모방하기 시작 |
최종 Loss | 0.0107 | Distillation 자체는 정상적으로 수렴함을 확인 |
학습 시간 | 100 step ≈ 1–3초 | 프로토타입 KD 구조에서 빠른 수렴 및 동작 확인 단계 |
Multimodal KD Prototype – 1차 안정적 수렴 결과 확인
- Teacher의 예측 확률(logits) 분포를 Student가 정상적으로 모방함을 확인
- 프로토타입 수준에서 KD 작동 여부 및 수렴 안정성 검증 성공
1차 실험은 Multimodal KD의 가능성만 확인한 Prototype이며,2차 실험은 Teacher Confidence 기반 Active KD 전략이 실제로 안정적·효율적임을 검증한 완성형 실험이다.
(8) Multimodal KD Prototype 구현
· 구글코랩 코드로 Multimodal KD Prototype 2차 구현 및 분석
1차 실험은 멀티모달 입력 사용시 Teacher–Student KD가 정상적으로 수렴하는지 확인하였고,�2차 실험은 Teacher Confidence 기반 Active KD가 샘플 선택 전략을 통해 안정성 효율성을 개선하는지 검증
* Difficulty = Student에게 얼마나 어려운 세션인가?
* Effect = Teacher의 정답이 정확한가
* Confidence= Teacher가 그 세션에서 얼마나 확신 있게 정답을 말하는가
항목 | 1차 실험 | 2차 실험 |
초기 Loss | 약 4.3 | 약 0.007 |
최종 Loss | 약 0.0107 | 약 0.001 ~ 0.0011 |
학습 방식 | 단순 KL Distillation | Active KD (Difficulty* × Effect* × Confidence*) |
데이터 사용 방식 | 전체 샘플 동일 가중 | 상위 30% informative sample만 선택 |
학습 길이 | 100 steps | 200 epoch |
의미 / 목적 | KD 기본 작동 확인 | 샘플 선택 기반 Active KD의 수렴 안정성·효율성 검증 |
SLM(student)이 Teacher의 멀티모달 표현구조(이미지·텍스트·cross-modal 관계)를 학습하는 과정의 ‘축소 버전(Minimal Working Example)’로서 완전히 타당하고 논문·PPT에서 “예시 코드”로 제시
(8) Multimodal KD Prototype 구현
· Multimodal KD Prototype 코드 상세 구현 사항
본 구현은 SLM(Student)이 Teacher의 Soft Label을 활용하여�멀티모달 입력(이미지·텍스트)에 대한 Teacher의 출력 패턴을 모방하는�축소 버전 형태의 KD 실험이며 이를 간단히 구글코랩으로 재현하고 분석을 완료
구성 요소 | 코드 구현 방식 | 의미(역할) |
Soft Label KD (KL Distillation) | KD_loss = KL (teacher_logits, student_logits) | Teacher의 확률 분포(logits)를 Student가 모방하여 전반적 지식을 계승 |
Difficulty Weighting | difficulty = cross_entropy (student, target) / max_ce | Student가 어려워하는 샘플일수록 더 높은 difficulty 값을 가지며 Active KD에서 샘플 우선순위에 반영 |
Effect Weighting | effect = softmax(teacher_logits)[target] | Teacher가 정답 클래스에 부여한 확률값을 반영하여 샘플 중요도를 측정 |
Teacher Confidence | confidence = max_softmax(teacher_logits) | Teacher가 해당 샘플을 얼마나 확신하는지 측정하여 GAIN 계산에 사용 |
Active KD (상위 30% Informative Sample 선택) | GAIN = difficulty * effect * confidence 상위 30% 샘플만 학습 | Expected Gain이 높고 정보량 높은 샘플만 선별하여 KD 효율 극대화 |
감사합니다