LLM + GAN 기반 혼합 Synthetic Text 생성으로 은행 챗봇의 저자원 카테고리 성능 개선 연구
은행 챗봇의 저자원 카테고리 성능을 획기적으로 개선하는 혁신적인 접근법을 제시합니다.
인공지능과 추천시스템
DFMBA 6기 조재현(20249406)
연구 배경: 은행 챗봇이 직면한 현실
다양한 업무 도메인
은행 챗봇은 수신, 여신, 카드, 투자상품, 인터넷뱅킹, 보안, 민원 등 매우 다양한 업무를 처리합니다.
그러나 실제 고객 문의의 분포는 심각한 불균형(long-tail distribution)을 보이며, 일부 카테고리는 문의량이 극히 적습니다.
저자원 문제의 실무적 어려움
핵심 문제 정의
민원 관련 문의
실제 현장에서 거의 수집되지 않아 성능이 급격히 떨어지는 문제 발생
특수 인증 절차
데이터 부족으로 인한 지속적인 성능 저하 문제
해결 방안
LLM과 GAN을 활용한 Synthetic Data(합성 데이터) 생성으로 저자원 문제 해결
본 연구는 이러한 기술을 은행 챗봇 분야에 적용하여 저자원 intent 성능 향상 방안을 제시합니다.
관련 연구 검토
1
Self-Instruct (Wang et al., 2022)
LLM이 스스로 instruction 및 응답을 생성하는 방식으로 synthetic 데이터를 자동 구축하는 프레임워크입니다.
2
Synthetic Data for Intent Classification (2023)
LLM이 생성한 텍스트가 intent 분류에서 실제로 성능을 개선함을 입증하였습니다.
3
FinGPT (2023)
금융 특화 LLM을 구축하는 오픈소스 연구로 금융 도메인 용어, 규제, 문체에 대한 이해도가 높습니다.
연구 목표
저자원 intent 카테고리의 성능을 극적으로 개선
01
LLM 기반 Seed 생성
Self-Instruct를 활용해 고품질·의미 정확한 Seed Synthetic Data 생성
02
GAN 기반 다양성 확장
SeqGAN/RelGAN을 적용해 문장 스타일·표현 다양성 확장
03
품질 필터링
semantic similarity, domain consistency, toxicity 검사를 통해 고품질 문장만 선별
04
성능 검증
Intent Classification 모델의 저자원 카테고리 성능 개선 검증
연구 방법론: Hybrid Synthetic Data Generation Pipeline
저자원 데이터 정의
데이터 수 < 50인 intent/category를 저자원으로 분류
LLM 기반 Seed 생성
Self-Instruct 방식으로 고품질 기준 데이터 생성
GAN 기반 Variance 생성
SeqGAN/RelGAN으로 표현 다양성 확보
품질 필터링 적용
의미 유사도, 도메인 규칙, 중복 검사
Intent Classification 모델 학습
최종 데이터로 모델 성능 향상
STEP 1: 저자원 Intent 정의
저자원 기준
데이터 수 < 50인 intent/category를 저자원으로 분류합니다.
실험은 이러한 저자원 intent를 대상으로 Synthetic Data를 생성합니다.
27
민원 관련
고객 불만 및 민원 처리 관련 문의
35
특수 인증 절차
보안 인증 및 특수 절차 문의
18
외환/송금 규제
국제 송금 및 외환 규제 관련
STEP 2: LLM 기반 Seed Synthetic Text 생성
예시 프롬프트
'카드 재발급' intent 성능 향상을 위해 실제 고객이 물을 법한 질문 20개를 생성하라.
조건: 1) 고객 유형 다양화 2) 문장 구조·길이 다양화 3) 은행 서비스 맥락 자연스럽게 유지
의미 정확성 확보
금융 도메인의 정확한 의미 보존
도메인 용어 유지
은행 서비스 용어·규정 정확히 반영
고품질 Seed Set
GAN의 기준 역할을 하는 고품질 데이터
STEP 3: GAN 기반 Text Variation
문장 다양성 확장의 필요성
LLM이 만든 Seed 문장은 구조가 일정하고 포맷이 제한적입니다.
GAN을 통해 표현, 문장 구조, 길이, 말투 등을 다양하게 재생성합니다.
적용 모델
생성 예시
Seed: "카드를 분실했는데 재발급 어떻게 하나요?"
GAN 생성 문장:
STEP 4: 품질 필터링 (Quality Filtering)
GAN은 의미 왜곡과 비문 생성 위험이 있습니다. 따라서 3단계 검증 필터를 적용합니다.
1
의미 유사도 검사
Sentence-BERT 기반 임베딩 후 코사인 유사도 계산
임계값(ex. 0.75) 이하 문장 제거하여 의미 일관성 유지
2
금융 도메인 규칙 검사
3
중복 및 비문 제거
Jaccard Similarity 기반 중복 제거
의미 없는 문장 자동 필터링
STEP 5: Intent Classification 모델 학습
Fine-tuning 대상 모델
Sampling 전략
Evaluation Metrics
실험 설계
데이터 구성
비교 실험군
성능 지표
실험 결과: 전체 성능 비교
Hybrid 모델이 가장 큰 성능 향상을 보였습니다. Baseline 대비 18.2%p 향상된 결과로, LLM과 GAN의 시너지 효과가 입증되었습니다.
저자원 Intent별 성능 향상
27%
민원 (Intent A)
F1 Score 대폭 상승
30%
보안 인증 (Intent B)
Recall 개선
40%
외환 규제 (Intent C)
오분류율 감소
모든 저자원 카테고리에서 유의미한 성능 향상이 확인되었으며, 특히 외환 규제 카테고리에서 가장 큰 개선 효과를 보였습니다.
결과 분석 요약
1
LLM 단독 사용
정확하지만 다양성이 부족하여 실제 고객 화법을 충분히 반영하지 못함
2
GAN 단독 사용
다양성은 좋지만 의미 왜곡 위험이 존재하여 금융 도메인에서 신뢰성 저하
3
Hybrid 방식
두 단점을 상호 보완하며 최고의 성능 달성. 의미 정확성과 표현 다양성 동시 확보
은행 챗봇 실무 적용 가능성
신규 상품 출시 초기 데이터 부족 해결
Synthetic로 출시 전 데이터 확보 가능하여 초기 성능 저하를 방지할 수 있습니다.
민원·보안 등 중요 카테고리 강화
오분류 감소로 고객 불만이 줄어들고 서비스 품질이 향상됩니다.
운영 자동화
Self-Instruct 기반으로 정기 Synthetic 업데이트를 자동화할 수 있습니다.
비용 절감
사람이 수작업으로 만드는 것 대비 50~70% 비용 절감이 가능합니다.
결론
LLM과 GAN의 시너지로 은행 챗봇의 새로운 가능성을 열다
본 연구는 LLM과 GAN을 결합한 Hybrid Synthetic Text Generation이 은행 챗봇 저자원 카테고리 성능 개선에 매우 효과적임을 확인하였습니다.
혁신적 접근
LLM의 의미 정확성과 GAN의 표현 다양성을 결합한 새로운 방법론
검증된 성능
Baseline 대비 18.2%p 향상된 Macro F1 Score 달성
실무 적용 가능
비용 절감, 자동화, 품질 향상의 실질적 가치 제공
이는 기존 단일 모델 기반 Synthetic 생성보다 발전된 방법이며, 금융 산업 전반에 걸쳐 AI 챗봇 서비스의 품질을 한 단계 끌어올릴 수 있는 실무 적용 가능성이 높은 연구입니다.