1 of 9

에이전틱 시스템의 학습

석사과정 성명기연구원

mg.seong@seoultech.ac.kr

2026.04.21

2 of 9

  • 에이전트 학습의 두 가지 방법
  • 비모수 학습
  • 모수 학습과 LoRA
  • 실습

목차

3 of 9

에이전트 학습의 두 가지 방법

비모수적 학습 (Nonparametric Learning)이란? 모델 가중치를 변경하지 않고 성능을 향상시키는 방법

  • 프롬프트 · 메모리 · 검색을 통해 행동 제어
  • 빠르고 가볍게 적용 가능, GPU 불필요
  • 예시: 예시 학습 / 리플렉시온 / ExpeL

모수적 학습 (Parametric Learning)이란? 모델 가중치를 직접 업데이트해 성능을 향상시키는 방법

  • 도메인 특화 데이터로 파라미터를 파인튜닝
  • 더 깊은 특화 가능, GPU · 데이터 필요
  • 예시: SFT / DPO / RLVR

4 of 9

[특징]

  • 예시가 많을수록 성능↑
  • 컨텍스트 비용↑

비모수 학습

Example Learning

Reflexion

ExpeL

[특징]

  • 실패 → 성찰 생성 → 메모리 버퍼 저장 → 다음 시도 시 주입
  • 실패 경험에서만 성찰
  • 메모리가 같은 작업 내에서만 유효

보완점

[특징]

  • 성공 + 실패 모두에서 인사이트 추출
  • 인사이트를 ADD / EDIT / REMOVE / AGREE로 동적 관리
  • 새로운 작업에도 인사이트 전이

5 of 9

ICL (In-Context Learning)이란?

  • 비모수 방법 중 태스크 설명 + 예시 샘플을 프롬프트에 넣어 모델이 태스크를 이해하게 하는 방법
  • 파라미터 업데이트 없이 입력 설계만으로 동작 제어 가능하며, 소량 샘플만으로도 다양한 태스크 처리 가능

한계점

  • Zero-shot 성능이 극도로 낮으며,
  • 단순히 패턴을 흉내 내는 것은 잘하지만, 논리적으로 여러 단계를 거쳐야 하는 복잡한 문제 해결에서는 Fine-tuning 모델에 비해 성능이 뒤처짐
  • 특정 도메인의 지식을 지속적으로 학습시켜야 하는 상황에서는 매번 프롬프트에�지식을 집어넣어야 하므로 장기적인 학습 도구로는 부적합

모수 학습

[1] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.

6 of 9

모수 학습

파인튜닝(Fine-tuning)이란?

  • 특정한 도메인의 문제(의료, 프로그래밍, 법률 등)를 해결하기 위해 사전학습을 마친 모델에 대해 추가적인 학습을 진행하는 것

7 of 9

모수 학습

Instruction Tuning이란?

  • 지시(Instruction) 형식으로 서술된 다양한 태스크 데이터셋으로 언어모델을 파인튜닝해 특정 태스크에서의 zero-shot 성능을 크게 향상시키는 방법

Dataset example

{

“instruction” : ~~

“output” : ~~

{

Parameter ↑

GPU ↑↑

[2] Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., ... & Le, Q. V. (2021). Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.

8 of 9

모수 학습

LoRA (Low-Rank Adaptation)의 필요성

  • 모델 가중치는 고정하고, 소수의 저랭크 행렬만 학습하는 파라미터 효율적 파인튜닝 기법

핵심 포인트

  • 원래 가중치 W → 완전 고정 (학습 X)
  • 작은 행렬 A × B만 학습 (파라미터 수 99% 이상 절감)
  • 출력 = W·x + α/r · BA·x (추론 시 두 경로 합산)

파인튜닝(Fine-tuning)의 한계 → 효율적인 파라미터 튜닝이 필요 → Parameter-Efficient Fine-Tuning(PEFT)

  • 수십억 파라미터 전부 학습 → GPU 수십 장, 막대한 비용
  • 도메인이 바뀔 때마다 모델 전체 재학습 필요
  • 일반 연구자·기업이 현실적으로 접근하기 어려움�→ 일부 파라미터만 효율적으로 학습하자 = PEFT

9 of 9

[실습] LoRA vs. SFT

LoRA가 SFT보다 낮은 loss와 높은 정확도를 기록한 이유

  • 과적합 위험: train loss만 보면 LoRA가 우세하지만, 데이터가 약 3,000개로 적기 때문에 베이스라인과 ROUGE 점수를 함께 비교해야 실제 일반화 성능을 판단할 수 있습니다.
  • 실용성: LoRA는 SFT보다 VRAM을 적게 사용하면서 유사하거나 더 나은 학습 지표를 달성해 특정 도메인 학습에 효율적인 방법임을 보임