출처: https://zenn.dev/cloud_ace/articles/gemma3-ollama-openwebui-rag

Gemma 3로 RAG 기능이 있는 안전한 로컬 AI 채팅 환경 구축하기

1. 시작하기

로컬에서 Gemma 3를 실행하는 방법만 알고 싶은 분은 6. 설정 절차로 이동하세요.

최근 대규모 언어 모델(LLM)의 발전은 놀라울 정도로 성능 향상과 함께 클라우드뿐만 아니라 일반 PC나 노트북에서도 실행이 현실적으로 가능해졌다. Mistral AI 등이 로컬 실행 가능한 모델을 제공하는 가운데, 2025년 3월 12일 Google이 공개한 "Gemma 3"는 고성능이면서도 일반 사용자의 PC에서 작동하는 경량 LLM으로 큰 주목을 받고 있다.

Gemma 3는 Gemini 2.0 기술을 기반으로 한 고성능 모델로, 1B, 4B, 12B, 27B의 4가지 크기가 준비되어 다양한 하드웨어 환경에 대응할 수 있도록 설계되었다. 실제로 Chatbot Arena의 Elo 점수에서는 더 대규모 모델과 비교해도 손색없는 성능을 발휘하면서 필요한 리소스는 크게 줄었다.

본 글에서는 일반적인 로컬 환경(동작 검증에는 MacBook Pro 사용)에서 Gemma 3를 실행하는 방법을 Ollama라는 로컬 LLM 실행 도구와 Open WebUI라는 브라우저 인터페이스를 사용하여 설명한다.

Gemma 3와 로컬 LLM의 활용 이점

로컬 환경에서 Gemma 3와 같은 LLM을 실행하는 주요 이점은 다음 4가지다.

프라이버시 확보

모든 데이터 처리가 기기 내에서 완결되므로 기밀 정보나 개인 정보를 안심하고 다룰 수 있음

인터넷 연결 불필요

모델을 한 번 다운로드하면 오프라인 환경에서도 사용 가능

비용 절감

클라우드 서비스의 종량제 과금과 달리 초기 다운로드와 전력 소비 외 지속적인 비용이 없음

지연 시간 감소

네트워크 지연이 없어 특히 대화형 용도에서 응답 속도의 빠름을 체감할 수 있음

2. Gemma 3에 대하여

Gemma 3란?

Gemma 3는 2025년 3월 12일 Google이 공개한 새로운 AI 모델이다. 무료로 사용할 수 있는 오픈소스 모델로, "자신의 PC에서 실행할 수 있는 고성능 AI"를 컨셉으로 한다.

손쉬운 로컬 PC 실행

기존의 고성능 서버 없이도 사용 가능

다양한 크기 옵션

성능과 스펙의 균형을 맞춘 4가지 크기

상업적 이용 가능

Apache 2.0 라이선스로 개인 사용부터 상업적 사용까지 자유롭게 가능

4가지 크기

Gemma 3는 PC 스펙에 맞게 선택할 수 있는 4가지 크기가 있다.

모델 크기	파라미터 수	실행 환경	특징
1B	10억	모바일, 노트북 PC	가장 경량·고속, 기본적인 대화와 질의응답
4B	40억	일반적인 노트북 PC	균형 잡힌 성능, 이미지 인식도 가능
12B	120억	고성능 노트북·데스크톱	고급 추론, 더 복잡한 질문에 대응
27B	270억	고성능 데스크톱·워크스테이션	최고 성능, 전문적 내용도 이해

※ 파라미터 수: AI의 "두뇌 크기"를 나타내는 수치. 수가 많을수록 고성능이지만 필요한 처리 성능도 높아짐

Gemma 3의 주요 특징

이미지 이해 가능

4B 이상 모델은 멀티모달 기능을 탑재해 텍스트뿐만 아니라 이미지도 이해할 수 있다. 이미지를 보여주고 "이것은 무엇인가요?"라고 질문하거나 이미지 내용에 대해 자세히 설명하도록 할 수 있다. 1B 모델은 텍스트만 지원한다.

긴 문장 처리 가능

1B 모델은 최대 32,000 토큰, 4B 이상 모델은 최대 128,000 토큰(약 10만 단어 상당)의 길이 문장을 한 번에 처리할 수 있다. 긴 문서 요약이나 상세한 지시를 포함한 복잡한 대화도 가능하다.

다국어 지원

1B 모델은 영어만 지원하지만, 4B 이상 모델은 140개 이상의 언어를 지원해 영어뿐 아니라 일본어에서도 높은 성능을 발휘한다.

저메모리 버전 제공

원래 모델을 압축한 "양자화 버전"이 제공되어 성능을 크게 떨어뜨리지 않으면서 메모리 사용량을 대폭 줄일 수 있다. 이로 인해 더 적은 리소스로도 동작 가능하다.

3. 필요한 환경

여기서는 Gemma 3를 로컬 환경에서 실행하는 데 필요한 환경을 간략히 설명한다. 일반적인 컴퓨터에서도 실행할 수 있지만, 모델 크기에 따라 필요한 스펙이 달라진다.

하드웨어 요구사항

필요 리소스 참고표

아래는 모델별로 필요한 리소스의 참고 표이다. 공식적으로 발표된 내용이 아니라 인터넷 정보를 바탕으로 작성한 것이므로 정확하지 않을 수 있다.

모델	CPU	GPU	메모리	저장 공간
1B	멀티코어 프로세서	옵션(CPU만으로도 충분)	8GB 이상	약 1GB
4B	멀티코어 프로세서	RTX 3050(8GB) 이상 권장	16GB 이상	약 4GB
12B	고성능 멀티코어 프로세서	RTX 3060(12GB) 이상 권장	24GB 이상	약 9GB
27B	고성능 멀티코어 프로세서	RTX 4090(24GB) 이상 권장	32GB 이상	약 18GB

저자 환경(참고)

MacBook Pro 14인치 2021
M1 Pro
16GB RAM

소프트웨어 요구사항

지원 OS: Windows 10/11, macOS 11.0 이상, Linux
필요한 소프트웨어

Ollama: LLM 실행 엔진(버전 0.6 이상)
Open WebUI: 브라우저 기반 UI(선택 사항)
Docker: Open WebUI를 컨테이너로 실행할 경우

주의사항

노트북에서는 전원 연결 권장(전력 소비가 큼)
실행 중 발열이 있으므로 냉각이 필요할 수 있음
처음 시도하는 경우 작은 모델(1B 또는 4B)부터 시작하는 것을 권장

4. Ollama에 대하여

Ollama란?

Ollama는 LLM을 로컬 환경에서 쉽게 실행하기 위한 오픈소스 도구이다. 복잡한 환경 구축 없이 고성능 언어 모델을 이용할 수 있다. 간단한 CLI와 API를 갖추고 있어 많은 애플리케이션과 연동 가능한 설계로 되어 있다.

Ollama의 주요 특징

로컬 실행

로컬 환경에서 모델을 직접 실행하므로 데이터가 외부로 전송되지 않는다. 보안 측면에서 안심할 수 있다.

간단한 조작

전문 지식이 없어도 모델 다운로드와 실행이 명령어 하나로 가능해 쉽게 시작할 수 있다.

다양한 모델 지원

Gemma 3나 Llama 3를 비롯해 Mistral, DeepSeek-R1 등 다양한 오픈소스 LLM을 사용할 수 있다. 텍스트 처리뿐만 아니라 LLaVA나 Bakllava 같은 이미지 인식 모델도 사용 가능하다.

하드웨어 리소스 최적화

PC에 탑재된 CPU나 GPU를 자동으로 감지하고 최적 설정으로 작동하므로 사용 환경에서 최대한의 성능을 끌어낼 수 있다.

Ollama의 주요 기능

모델 관리

Ollama에서는 다음과 같은 간단한 명령어로 모델을 관리할 수 있다.

# 모델 다운로드
ollama pull gemma3:4b

# 모델 실행
ollama run gemma3:4b

# 사용 가능한 모델 목록 표시
ollama list

API 연동

Ollama는 RESTful API를 제공하여 다양한 애플리케이션이나 프로그래밍 언어에서 사용할 수 있다.

# API 요청 예(curl 명령어)
curl -X POST http://localhost:11434/api/generate -d '{
"model": "gemma3:4b",
"prompt": "클라우드에이스 주식회사에 대해 설명해 주세요."
}'

이 API를 사용하면 다음과 같은 일을 쉽게 실행할 수 있다:

텍스트 생성
대화
임베딩 생성(문장을 수치 벡터로 변환)
도구 호출(지원 모델만)
모델 관리(다운로드, 목록 표시, 삭제 등)

이러한 API 덕분에 Ollama는 웹 애플리케이션, 데스크톱 앱, 스마트폰 앱 등 다양한 소프트웨어와 연동할 수 있다. 다음 섹션에서 소개할 Open WebUI도 이 API를 활용해 Ollama와 연동한다.

5. Open WebUI에 대하여

Open WebUI란?

Open WebUI를 사용하면 브라우저에서 GUI 조작만으로 Ollama의 기능을 쉽게 이용할 수 있다. 쉽게 말해, ChatGPT 같은 일반적인 AI 채팅 화면에서 Ollama로 실행 중인 AI 모델과 대화하거나 설정을 조정할 수 있다.

Open WebUI의 주요 특징

사용하기 쉬운 인터페이스

브라우저에서 조작할 수 있는 심플한 디자인으로, ChatGPT 등의 AI 서비스와 비슷한 UI여서 아무런 조사 없이도 바로 사용을 시작할 수 있다.

Ollama와의 연동

Ollama에서 사용 가능한 모델을 자동으로 감지하여 표시한다. 모델 전환도 화면에서 원클릭으로 가능해 여러 모델을 비교하며 사용하기에도 편리하다.

편리한 대화 기능

대화 이력이 자동으로 저장되어 이전 대화 내용을 쉽게 돌아볼 수 있다. 코드는 색상 구분으로 가독성이 좋고, 자주 사용하는 프롬프트는 템플릿으로 저장할 수 있다. 또한 뒤에서 소개할 시스템 프롬프트 및 기타 상세 설정 기능도 갖추고 있어 상당히 고급 사용법도 가능하다.

프라이버시와 간편한 설정

모든 데이터가 로컬 환경에서 처리되므로 기밀 정보를 다루는 경우에도 안심할 수 있다. Docker를 사용한 설정 방법이 준비되어 있어 환경 구축도 쉽게 할 수 있다.

Open WebUI의 주요 기능

채팅 인터페이스

여러 대화 이력(채팅) 생성·관리
채팅별로 다른 모델 선택
이미지 포함 프롬프트 전송(멀티모달 모델 사용 시)
응답 생성 중간에 취소
대화 공유 및 내보내기

모델 관리

사용 가능한 모델 목록 표시
새 모델 다운로드(태그 지정 가능)
모델 삭제
모델별 설정(온도, 컨텍스트 길이 등) 커스터마이즈
모델 사용 현황 확인

Ollama와의 연동

Open WebUI는 Ollama의 API를 이용해 연동한다.

API 연결 설정

기본값으로는 http://localhost:11434/api 에 연결
네트워크가 다른 경우 연결 URL 변경 가능

인증 설정

필요에 따라 API 키 설정 가능

모델 연동

Ollama가 관리하는 모델을 자동으로 감지·목록 표시
Open WebUI에서 모델 다운로드도 가능

6. 설정 절차

여기서는 검증 시 사용한 Ollama와 Open WebUI, 그리고 Gemma 3의 설정 절차를 소개한다. 변경될 수 있으므로 최신 정보는 공식 홈페이지와 문서를 참조하자.

6.1 Ollama 설정

Ollama 공식 사이트에서 Ollama를 다운로드하여 설치

Mac에서는 다운로드한 zip 파일을 압축 해제하고 내용물을 애플리케이션 폴더로 이동

설치 후 Ollama 실행

설치 확인
다음 명령어를 실행하여 Ollama가 올바르게 설치되었는지 확인한다.

ollama --version

버전 정보(예: ollama version is 0.6.2)가 표시되면 설치 성공이다.

6.2 Open WebUI 설정

Open WebUI는 Docker를 사용해 설치한다.

1. 먼저 Ollama가 실행 중인지 확인

ollama --version

2. 최신 이미지 다운로드

docker pull ghcr.io/open-webui/open-webui:main

3. 컨테이너 실행

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

4. 명령어 실행 후 브라우저에서 http://localhost:3000 접속

5. 첫 접속 시 계정을 생성하고 다음부터는 그 계정으로 로그인

6.3 Gemma 3 다운로드

1. 다음 명령어를 실행하여 Gemma 3의 4B 모델을 다운로드

ollama pull gemma3:4b

2. 다운로드가 완료되면 다음 명령어로 실행해보기
ollama run gemma3:4b

3. 모델이 시작되고 대화형 인터페이스가 표시됨

>>> Send a message (/? for help)

시험 삼아 Google Cloud에 대해 질문해보면 약 18초 후 답변이 나온다:

>>> Google Cloud란?

Google Cloud(구글 클라우드)는 Google이 제공하는 클라우드 컴퓨팅 서비스입니다. 개인이나 기업이 서버, 스토리지, 데이터베이스, 기계학습 등의 컴퓨팅 리소스를 인터넷을 통해 이용할 수 있는 서비스 그룹을 말합니다.

[긴 설명 내용...]

Gemma 3를 종료하려면 키보드에서 [Ctrl] + [D]를 누르거나 /bye를 입력한다.

7. Open WebUI로 Gemma 3 사용하기

앞서 설치한 Open WebUI를 사용해 Gemma 3 모델을 조작하는 방법을 설명한다. 브라우저 기반의 사용하기 편한 인터페이스로 보다 직관적으로 AI와 대화할 수 있다.

7.1 Open WebUI 접속 및 로그인

Ollama와 Open WebUI가 실행 중인지 확인
웹 브라우저를 열고 http://localhost:3000에 접속
첫 접속 시 생성한 사용자 이름과 비밀번호로 로그인
로그인 후 채팅 인터페이스가 표시됨

7.2 Gemma 3 모델 선택 및 설정

화면 좌측 상단의 모델 선택 드롭다운을 클릭
"gemma3:4b"를 목록에서 선택

모델을 추가하고 싶은 경우 다음 명령어를 실행하여 다운로드 가능:
ollama pull <모델>

7.3 텍스트로 대화하기

화면 하단의 텍스트 입력란에 질문이나 지시를 입력
"↑" 버튼을 클릭하거나 Enter 키를 눌러 전송

7.4 이미지를 사용한 대화(멀티모달 기능)

Gemma 3의 4B 이상 모델은 멀티모달 기능을 지원하여 이미지에 관한 질문이나 분석이 가능하다.

입력란 좌측 하단의 "+" 버튼을 클릭하여 추가하거나, 입력란에 드래그 앤 드롭하거나, 클립보드의 이미지를 붙여넣기
이미지가 첨부된 상태로 전송

7.5 고급 사용법

채팅 컨트롤

화면 우측 상단의 채팅 컨트롤 버튼에서 언어 모델과의 대화에 대한 상세 설정이 가능하다. 여기서는 시스템 프롬프트 설정을 예로 소개한다.

시스템 프롬프트를 설정하면 생성되는 답변을 제어할 수 있다. 단, 프롬프트의 품질이나 언어 모델의 종류에 따라 제어할 수 있는 정도가 달라지는 점에 유의해야 한다.

예:

문장 끝에는 반드시 "Google Cloud 최고!"를 붙여주세요.

RAG(검색 확장 생성)

자신의 문서나 지식 베이스를 업로드하여 참조시킬 수 있다.

여기서는 Open WebUI 공식 문서 튜토리얼에 따라 시험해보자.

1. Open WebUI 문서를 공식 리포지토리에서 다운로드
https://github.com/open-webui/docs/archive/refs/heads/main.zip

2. 다운로드한 main.zip 파일 압축 해제

3. 지식 베이스 생성

화면 왼쪽 메뉴의 "워크스페이스"에서 "지식 베이스" 탭 열기
화면 오른쪽 "+" 클릭
이름에 "Open WebUI 문서"라고 입력하고, 목적에 "보조하기"라고 입력
"지식 베이스 생성" 클릭

4.앞서 압축 해제한 폴더에서 .md 및 .mdx 파일을 생성한 "Open WebUI 문서" 지식 베이스에 드래그 앤 드롭

Mac에서는 Finder로 docs-main 폴더를 연 상태에서 *.md와 *.mdx로 검색하면 쉽게 필터링 가능

5. 파일이 업로드되고 화면 오른쪽에 파일 목록이 표시됨

6. "워크스페이스"에서 "모델" 탭을 선택하고 화면 오른쪽 "+" 클릭

7. 모델 설정

이름에 "Open WebUI"라고 입력
기본 모델은 "gemma3:4b" 선택
"지식 베이스"에서 앞서 생성한 "Open WebUI 문서" 선택
화면 최하단의 "저장 및 생성" 클릭

여기까지 완료하면 추가한 모델이 표시될 것이다. 새 채팅을 열고 방금 추가한 모델을 선택해보자.

이제 준비 완료다. Open WebUI에 대해 질문해보자. 몇 초 내로 지식 베이스를 검색한 후, 참조 출처를 명확히 표시하며 답변해준다.

이처럼 RAG 기능을 사용하면 특정 분야나 자료에 관한 질문에 대해 더 정확하고 참조 출처가 명확한 답변을 얻을 수 있다(완전히 환각이 사라지는 것은 아님). 이 모든 것이 로컬 환경에서 실행되므로 자사 매뉴얼이나 비공개 문서 등 보안적으로 민감한 자료를 불러와 사용할 수 있는 점이 매우 편리하다.

8. 마치며

8.1 요약

본 글에서는 Google이 2025년 3월에 공개한 경량 대규모 언어 모델 "Gemma 3"에 대해 다음 내용을 설명했다.

Gemma 3의 특징과 4가지 모델 크기(1B, 4B, 12B, 27B)
Ollama와 Open WebUI를 사용한 설정 절차
공식 튜토리얼에 기반한 RAG 기능 사용법

여러분도 본 글을 참고하여 Ollama와 Open WebUI를 사용해 Gemma 3나 다른 최신 LLM을 로컬 환경에서 사용해보길 바란다.

8.2 소감

놀라운 사용 편의성
Mac에서의 동작 검증에서는 예상을 크게 웃도는 쾌적함으로 Gemma 3를 사용할 수 있었다. DeepSeek R1이나 V3 등 다른 오픈소스 LLM에 비해 처리 성능 요구사항이 낮고, 일반 PC에서도 실용적으로 작동하는 Gemma 3는 로컬 LLM의 새로운 가능성을 느끼게 해준다. 또한 Ollama와 Open WebUI의 조합으로 전문 지식 없이도 쉽게 환경 구축이 가능한 점도 큰 매력이었다.

다양한 영역에서의 활용 기대
로컬에서 완결되는 AI 환경에는 정보 보안과 비용 면에서 큰 이점이 있다. 특히 기밀 정보를 포함한 문서 처리나 API 호출 수를 고려하지 않고 사용할 수 있는 점은 기업에서의 도입 장벽을 크게 낮춘다. 앞으로 Gemma 3와 같은 경량 고성능 LLM의 발전으로 스마트폰이나 엣지 디바이스에서의 AI 활용도 확대될 것으로 기대된다.

개인적으로 기대하는 것
최근에는 Apple Intelligence나 Galaxy AI 등 스마트폰에 AI가 탑재되는 사례가 늘고 있다. 이러한 AI는 검색 기능 확충이나 문장 작성 보조 등 현재 활약은 상당히 제한적이다. 따라서 Gemma 3와 같은 경량 고성능 LLM이 발전함으로써 더 범용적이고 포괄적인 기능을 갖춘 AI 탑재 스마트폰(어쩌면 스마트폰일 필요도 없을지도)이 등장하기를 기대한다.