1 of 9

에이전틱 시스템의 학습

석사과정 성명기연구원

mg.seong@seoultech.ac.kr

2026.04.21

2 of 9

에이전트 학습의 두 가지 방법
비모수 학습
모수 학습과 LoRA
실습

3 of 9

에이전트 학습의 두 가지 방법

비모수적 학습 (Nonparametric Learning)이란? 모델 가중치를 변경하지 않고 성능을 향상시키는 방법

프롬프트 · 메모리 · 검색을 통해 행동 제어
빠르고 가볍게 적용 가능, GPU 불필요
예시: 예시 학습 / 리플렉시온 / ExpeL

모수적 학습 (Parametric Learning)이란? 모델 가중치를 직접 업데이트해 성능을 향상시키는 방법

도메인 특화 데이터로 파라미터를 파인튜닝
더 깊은 특화 가능, GPU · 데이터 필요
예시: SFT / DPO / RLVR

4 of 9

[특징]

예시가 많을수록 성능↑
컨텍스트 비용↑

비모수 학습

Example Learning

Reflexion

ExpeL

[특징]

실패 → 성찰 생성 → 메모리 버퍼 저장 → 다음 시도 시 주입

실패 경험에서만 성찰
메모리가 같은 작업 내에서만 유효

보완점

[특징]

성공 + 실패 모두에서 인사이트 추출
인사이트를 ADD / EDIT / REMOVE / AGREE로 동적 관리
새로운 작업에도 인사이트 전이

5 of 9

ICL (In-Context Learning)이란?

비모수 방법 중 태스크 설명 + 예시 샘플을 프롬프트에 넣어 모델이 태스크를 이해하게 하는 방법
파라미터 업데이트 없이 입력 설계만으로 동작 제어 가능하며, 소량 샘플만으로도 다양한 태스크 처리 가능

한계점

Zero-shot 성능이 극도로 낮으며,
단순히 패턴을 흉내 내는 것은 잘하지만, 논리적으로 여러 단계를 거쳐야 하는 복잡한 문제 해결에서는 Fine-tuning 모델에 비해 성능이 뒤처짐
특정 도메인의 지식을 지속적으로 학습시켜야 하는 상황에서는 매번 프롬프트에�지식을 집어넣어야 하므로 장기적인 학습 도구로는 부적합

모수 학습

[1] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.

6 of 9

모수 학습

파인튜닝(Fine-tuning)이란?

특정한 도메인의 문제(의료, 프로그래밍, 법률 등)를 해결하기 위해 사전학습을 마친 모델에 대해 추가적인 학습을 진행하는 것

파인튜닝(Fine Tuning)이란, 이후 수행될 하위 태스크(Downstream Task)를 해결하기 위해 사전학습을 마친 모델에 대해 추가적인 학습을 진행하는 것을 의미합니다. 이 기법은 이미지 처리, 음성인식, 자연어 처리등 다양한 분야에서 폭넓게 활용되고 있습니다. 자연어 처리분야에서는 LLM이 등장하기 이전부터 BERT, RoBERTa와 같은 사전학습 모델을 통해 문서분류나 개체명인식(NER)등 여러 하위 태스크를 해결하기 위해 파인튜닝이 사용되어 왔습니다. 특히 LLM의 경우에는 "인간의 지시에 따른다"와 같이 보다 추상적인 태스크를 학습하는데 활용됩니다. 이번에는 수십억개 이상의 파라미터를 갖춘 LLM의 파인튜닝 프로세스와 파인튜닝에 사용하는 데이터세트를 구축하는 방법에 초점을 맞춰 설명합니다.

7 of 9

모수 학습

Instruction Tuning이란?

지시(Instruction) 형식으로 서술된 다양한 태스크 데이터셋으로 언어모델을 파인튜닝해 특정 태스크에서의 zero-shot 성능을 크게 향상시키는 방법

Dataset example

{

“instruction” : ~~

“output” : ~~

{

Parameter ↑

GPU ↑↑

[2] Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., ... & Le, Q. V. (2021). Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.

(A) Pretrain-finetune은 태스크마다 전용 모델이 필요해 비효율적이고, (B) Prompting은 Zero-shot에서 지시를 제대로 이해하지 못해 성능이 불안정함
두 방식의 한계를 동시에 극복하기 위해 (C) Instruction Tuning은 다양한 태스크를 자연어 지시문 형태로 한 번에 학습시켜, 모델이 "지시를 따르는 능력" 자체를 파라미터에 내재화함
그 결과 학습에서 본 적 없는 unseen task에도 지시문만으로 Zero-shot 수행이 가능한 범용 모델이 탄생함

1. (A) Pretrain–finetune (BERT, T5 방식)

과정: 사전 학습된 언어 모델(Pretrained LM)을 특정 작업(Task A)에 맞춰 다시 학습(Finetune) 시킵니다.

특징:

해당 작업에 특화된 수많은 데이터(Task-specific examples)가 필요합니다.

결과적으로 각 작업마다 별도의 전용 모델이 만들어집니다 (예: 감성 분석용 모델, 번역용 모델 등).

한계: 새로운 작업에 적용하려면 또다시 많은 양의 데이터로 학습을 시켜야 합니다.

2. (B) Prompting (GPT-3 방식)

과정: 모델을 추가 학습시키지 않고, 입력값에 몇 가지 예시나 지시문(Prompt)을 넣어 바로 추론(Inference)을 수행합니다.

특징:

Few-shot prompting: 모델에게 "사과 -> Apple, 바나나 -> Banana"와 같은 예시를 몇 개 보여줌으로써 작업의 의도를 파악하게 합니다.

학습 과정이 없으므로 모델 하나로 여러 작업을 수행할 수 있습니다.

한계: 예시가 주어지지 않는 Zero-shot 상황에서는 모델이 지시사항을 정확히 이해하지 못해 성능이 떨어지는 경우가 많습니다.

3. (C) Instruction tuning (FLAN 방식)

과정: 사전 학습된 모델을 **여러 가지 다양한 작업(B, C, D...)**에 대해 자연어 지시문(Instruction) 형태로 파이튜닝합니다.

특징:

모델은 "이 문장을 스페인어로 번역해줘", "이 글의 감정을 분류해줘"와 같은 지시문을 따르는 법을 배웁니다.

핵심 이점: 이렇게 학습된 모델은 한 번도 본 적 없는 **새로운 작업(Unseen task A)**에 대해서도 지시문만 주어지면 Zero-shot으로 훌륭하게 수행해냅니다.

차별점: 기존의 Prompting 방식보다 지시 이해 능력이 뛰어나며, 개별 작업마다 미세 조정을 할 필요가 없는 '일반화된 지시 수행 모델'을 지향합니다.

8 of 9

모수 학습

LoRA (Low-Rank Adaptation)의 필요성

모델 가중치는 고정하고, 소수의 저랭크 행렬만 학습하는 파라미터 효율적 파인튜닝 기법

핵심 포인트

원래 가중치 W → 완전 고정 (학습 X)
작은 행렬 A × B만 학습 (파라미터 수 99% 이상 절감)
출력 = W·x + α/r · BA·x (추론 시 두 경로 합산)

파인튜닝(Fine-tuning)의 한계 → 효율적인 파라미터 튜닝이 필요 → Parameter-Efficient Fine-Tuning(PEFT)

수십억 파라미터 전부 학습 → GPU 수십 장, 막대한 비용
도메인이 바뀔 때마다 모델 전체 재학습 필요
일반 연구자·기업이 현실적으로 접근하기 어려움�→ 일부 파라미터만 효율적으로 학습하자 = PEFT

9 of 9

[실습] LoRA vs. SFT

LoRA가 SFT보다 낮은 loss와 높은 정확도를 기록한 이유

과적합 위험: train loss만 보면 LoRA가 우세하지만, 데이터가 약 3,000개로 적기 때문에 베이스라인과 ROUGE 점수를 함께 비교해야 실제 일반화 성능을 판단할 수 있습니다.
실용성: LoRA는 SFT보다 VRAM을 적게 사용하면서 유사하거나 더 나은 학습 지표를 달성해 특정 도메인 학습에 효율적인 방법임을 보임