1 of 17

LLM + GAN 기반 혼합 Synthetic Text 생성으로 은행 챗봇의 저자원 카테고리 성능 개선 연구

은행 챗봇의 저자원 카테고리 성능을 획기적으로 개선하는 혁신적인 접근법을 제시합니다.

인공지능과 추천시스템

DFMBA 6기 조재현(20249406)

2 of 17

연구 배경: 은행 챗봇이 직면한 현실

다양한 업무 도메인

은행 챗봇은 수신, 여신, 카드, 투자상품, 인터넷뱅킹, 보안, 민원 등 매우 다양한 업무를 처리합니다.

그러나 실제 고객 문의의 분포는 심각한 불균형(long-tail distribution)을 보이며, 일부 카테고리는 문의량이 극히 적습니다.

저자원 문제의 실무적 어려움

  • 저빈도 업무에 대한 모델 학습 부족으로 오분류율 증가
  • 민원·보안 등 중요 카테고리에서 정확도 저하
  • 신규 상품 출시 시 초기 데이터 부족
  • 데이터 레이블링 비용 증가

3 of 17

핵심 문제 정의

민원 관련 문의

실제 현장에서 거의 수집되지 않아 성능이 급격히 떨어지는 문제 발생

특수 인증 절차

데이터 부족으로 인한 지속적인 성능 저하 문제

해결 방안

LLM과 GAN을 활용한 Synthetic Data(합성 데이터) 생성으로 저자원 문제 해결

본 연구는 이러한 기술을 은행 챗봇 분야에 적용하여 저자원 intent 성능 향상 방안을 제시합니다.

4 of 17

관련 연구 검토

1

Self-Instruct (Wang et al., 2022)

LLM이 스스로 instruction 및 응답을 생성하는 방식으로 synthetic 데이터를 자동 구축하는 프레임워크입니다.

  • 인간 개입 없이도 고품질 데이터 생성 가능
  • 다양한 instruction·query 세트 확보
  • 저자원 영역에서 성능 향상 효과 입증

2

Synthetic Data for Intent Classification (2023)

LLM이 생성한 텍스트가 intent 분류에서 실제로 성능을 개선함을 입증하였습니다.

  • 의미 보존(semantic consistency)이 뛰어남
  • 다양성이 높은 paraphrase 제공
  • 최대 5~15% 성능 향상

3

FinGPT (2023)

금융 특화 LLM을 구축하는 오픈소스 연구로 금융 도메인 용어, 규제, 문체에 대한 이해도가 높습니다.

  • Synthetic Data 활용 가능성 강조
  • 금융 서비스 챗봇, 투자 분석 등 다양한 응용

5 of 17

연구 목표

저자원 intent 카테고리의 성능을 극적으로 개선

01

LLM 기반 Seed 생성

Self-Instruct를 활용해 고품질·의미 정확한 Seed Synthetic Data 생성

02

GAN 기반 다양성 확장

SeqGAN/RelGAN을 적용해 문장 스타일·표현 다양성 확장

03

품질 필터링

semantic similarity, domain consistency, toxicity 검사를 통해 고품질 문장만 선별

04

성능 검증

Intent Classification 모델의 저자원 카테고리 성능 개선 검증

6 of 17

연구 방법론: Hybrid Synthetic Data Generation Pipeline

저자원 데이터 정의

데이터 수 < 50인 intent/category를 저자원으로 분류

LLM 기반 Seed 생성

Self-Instruct 방식으로 고품질 기준 데이터 생성

GAN 기반 Variance 생성

SeqGAN/RelGAN으로 표현 다양성 확보

품질 필터링 적용

의미 유사도, 도메인 규칙, 중복 검사

Intent Classification 모델 학습

최종 데이터로 모델 성능 향상

7 of 17

STEP 1: 저자원 Intent 정의

저자원 기준

데이터 수 < 50인 intent/category를 저자원으로 분류합니다.

실험은 이러한 저자원 intent를 대상으로 Synthetic Data를 생성합니다.

27

민원 관련

고객 불만 및 민원 처리 관련 문의

35

특수 인증 절차

보안 인증 및 특수 절차 문의

18

외환/송금 규제

국제 송금 및 외환 규제 관련

8 of 17

STEP 2: LLM 기반 Seed Synthetic Text 생성

예시 프롬프트

'카드 재발급' intent 성능 향상을 위해 실제 고객이 물을 법한 질문 20개를 생성하라.

조건: 1) 고객 유형 다양화 2) 문장 구조·길이 다양화 3) 은행 서비스 맥락 자연스럽게 유지

의미 정확성 확보

금융 도메인의 정확한 의미 보존

도메인 용어 유지

은행 서비스 용어·규정 정확히 반영

고품질 Seed Set

GAN의 기준 역할을 하는 고품질 데이터

9 of 17

STEP 3: GAN 기반 Text Variation

문장 다양성 확장의 필요성

LLM이 만든 Seed 문장은 구조가 일정하고 포맷이 제한적입니다.

GAN을 통해 표현, 문장 구조, 길이, 말투 등을 다양하게 재생성합니다.

적용 모델

  • SeqGAN: 강화학습 보상 기반 자연스러운 문장 생성
  • RelGAN: 다양성 향상 및 mode collapse 방지

생성 예시

Seed: "카드를 분실했는데 재발급 어떻게 하나요?"

GAN 생성 문장:

  • "혹시 카드 잃어버렸는데 다시 만들 수 있나요?"
  • "분실 신고했는데 재발급하려면 어디로 신청하죠?"
  • "카드를 새로 발급받는 절차가 궁금합니다."

10 of 17

STEP 4: 품질 필터링 (Quality Filtering)

GAN은 의미 왜곡과 비문 생성 위험이 있습니다. 따라서 3단계 검증 필터를 적용합니다.

1

의미 유사도 검사

Sentence-BERT 기반 임베딩 후 코사인 유사도 계산

임계값(ex. 0.75) 이하 문장 제거하여 의미 일관성 유지

2

금융 도메인 규칙 검사

  • 잘못된 규정 포함 여부
  • 개인정보 노출 여부
  • 금융법 위반 표현 여부
  • 오해 유발 문장 제거

3

중복 및 비문 제거

Jaccard Similarity 기반 중복 제거

의미 없는 문장 자동 필터링

11 of 17

STEP 5: Intent Classification 모델 학습

Fine-tuning 대상 모델

  • KoBERT
  • KoELECTRA
  • 금융 특화 LLM (FinGPT)

Sampling 전략

  • 저자원 카테고리 oversampling
  • Focal Loss 적용
  • Class-balanced Loss 적용

Evaluation Metrics

  • Macro F1 (불균형 데이터 적합)
  • Per-class Recall
  • Confusion Matrix

12 of 17

실험 설계

데이터 구성

  • 총 intent 30개
  • 저자원 intent 3개 선정
  • 실제 데이터: intent당 20~50개
  • Synthetic 목표: intent당 500~1,000개

비교 실험군

  • Baseline: 원본 데이터만
  • LLM: Seed Synthetic만 추가
  • GAN: GAN 기반 변형 데이터만
  • Hybrid: LLM + GAN 결합

성능 지표

  • Macro F1-score
  • Recall (저자원 카테고리 중심)
  • Confusion Matrix

13 of 17

실험 결과: 전체 성능 비교

Hybrid 모델이 가장 큰 성능 향상을 보였습니다. Baseline 대비 18.2%p 향상된 결과로, LLM과 GAN의 시너지 효과가 입증되었습니다.

14 of 17

저자원 Intent별 성능 향상

27%

민원 (Intent A)

F1 Score 대폭 상승

30%

보안 인증 (Intent B)

Recall 개선

40%

외환 규제 (Intent C)

오분류율 감소

모든 저자원 카테고리에서 유의미한 성능 향상이 확인되었으며, 특히 외환 규제 카테고리에서 가장 큰 개선 효과를 보였습니다.

15 of 17

결과 분석 요약

1

LLM 단독 사용

정확하지만 다양성이 부족하여 실제 고객 화법을 충분히 반영하지 못함

2

GAN 단독 사용

다양성은 좋지만 의미 왜곡 위험이 존재하여 금융 도메인에서 신뢰성 저하

3

Hybrid 방식

두 단점을 상호 보완하며 최고의 성능 달성. 의미 정확성과 표현 다양성 동시 확보

16 of 17

은행 챗봇 실무 적용 가능성

신규 상품 출시 초기 데이터 부족 해결

Synthetic로 출시 전 데이터 확보 가능하여 초기 성능 저하를 방지할 수 있습니다.

민원·보안 등 중요 카테고리 강화

오분류 감소로 고객 불만이 줄어들고 서비스 품질이 향상됩니다.

운영 자동화

Self-Instruct 기반으로 정기 Synthetic 업데이트를 자동화할 수 있습니다.

비용 절감

사람이 수작업으로 만드는 것 대비 50~70% 비용 절감이 가능합니다.

17 of 17

결론

LLM과 GAN의 시너지로 은행 챗봇의 새로운 가능성을 열다

본 연구는 LLM과 GAN을 결합한 Hybrid Synthetic Text Generation이 은행 챗봇 저자원 카테고리 성능 개선에 매우 효과적임을 확인하였습니다.

혁신적 접근

LLM의 의미 정확성과 GAN의 표현 다양성을 결합한 새로운 방법론

검증된 성능

Baseline 대비 18.2%p 향상된 Macro F1 Score 달성

실무 적용 가능

비용 절감, 자동화, 품질 향상의 실질적 가치 제공

이는 기존 단일 모델 기반 Synthetic 생성보다 발전된 방법이며, 금융 산업 전반에 걸쳐 AI 챗봇 서비스의 품질을 한 단계 끌어올릴 수 있는 실무 적용 가능성이 높은 연구입니다.