출처: https://zenn.dev/cloud_ace/articles/gemma3-ollama-openwebui-rag
로컬에서 Gemma 3를 실행하는 방법만 알고 싶은 분은 6. 설정 절차로 이동하세요.
최근 대규모 언어 모델(LLM)의 발전은 놀라울 정도로 성능 향상과 함께 클라우드뿐만 아니라 일반 PC나 노트북에서도 실행이 현실적으로 가능해졌다. Mistral AI 등이 로컬 실행 가능한 모델을 제공하는 가운데, 2025년 3월 12일 Google이 공개한 "Gemma 3"는 고성능이면서도 일반 사용자의 PC에서 작동하는 경량 LLM으로 큰 주목을 받고 있다.
Gemma 3는 Gemini 2.0 기술을 기반으로 한 고성능 모델로, 1B, 4B, 12B, 27B의 4가지 크기가 준비되어 다양한 하드웨어 환경에 대응할 수 있도록 설계되었다. 실제로 Chatbot Arena의 Elo 점수에서는 더 대규모 모델과 비교해도 손색없는 성능을 발휘하면서 필요한 리소스는 크게 줄었다.
본 글에서는 일반적인 로컬 환경(동작 검증에는 MacBook Pro 사용)에서 Gemma 3를 실행하는 방법을 Ollama라는 로컬 LLM 실행 도구와 Open WebUI라는 브라우저 인터페이스를 사용하여 설명한다.
로컬 환경에서 Gemma 3와 같은 LLM을 실행하는 주요 이점은 다음 4가지다.
Gemma 3는 2025년 3월 12일 Google이 공개한 새로운 AI 모델이다. 무료로 사용할 수 있는 오픈소스 모델로, "자신의 PC에서 실행할 수 있는 고성능 AI"를 컨셉으로 한다.
Gemma 3는 PC 스펙에 맞게 선택할 수 있는 4가지 크기가 있다.
모델 크기 | 파라미터 수 | 실행 환경 | 특징 |
1B | 10억 | 모바일, 노트북 PC | 가장 경량·고속, 기본적인 대화와 질의응답 |
4B | 40억 | 일반적인 노트북 PC | 균형 잡힌 성능, 이미지 인식도 가능 |
12B | 120억 | 고성능 노트북·데스크톱 | 고급 추론, 더 복잡한 질문에 대응 |
27B | 270억 | 고성능 데스크톱·워크스테이션 | 최고 성능, 전문적 내용도 이해 |
※ 파라미터 수: AI의 "두뇌 크기"를 나타내는 수치. 수가 많을수록 고성능이지만 필요한 처리 성능도 높아짐
여기서는 Gemma 3를 로컬 환경에서 실행하는 데 필요한 환경을 간략히 설명한다. 일반적인 컴퓨터에서도 실행할 수 있지만, 모델 크기에 따라 필요한 스펙이 달라진다.
아래는 모델별로 필요한 리소스의 참고 표이다. 공식적으로 발표된 내용이 아니라 인터넷 정보를 바탕으로 작성한 것이므로 정확하지 않을 수 있다.
모델 | CPU | GPU | 메모리 | 저장 공간 |
1B | 멀티코어 프로세서 | 옵션(CPU만으로도 충분) | 8GB 이상 | 약 1GB |
4B | 멀티코어 프로세서 | RTX 3050(8GB) 이상 권장 | 16GB 이상 | 약 4GB |
12B | 고성능 멀티코어 프로세서 | RTX 3060(12GB) 이상 권장 | 24GB 이상 | 약 9GB |
27B | 고성능 멀티코어 프로세서 | RTX 4090(24GB) 이상 권장 | 32GB 이상 | 약 18GB |
저자 환경(참고)
Ollama는 LLM을 로컬 환경에서 쉽게 실행하기 위한 오픈소스 도구이다. 복잡한 환경 구축 없이 고성능 언어 모델을 이용할 수 있다. 간단한 CLI와 API를 갖추고 있어 많은 애플리케이션과 연동 가능한 설계로 되어 있다.
Ollama에서는 다음과 같은 간단한 명령어로 모델을 관리할 수 있다.
# 모델 다운로드 |
Ollama는 RESTful API를 제공하여 다양한 애플리케이션이나 프로그래밍 언어에서 사용할 수 있다.
# API 요청 예(curl 명령어) |
이 API를 사용하면 다음과 같은 일을 쉽게 실행할 수 있다:
이러한 API 덕분에 Ollama는 웹 애플리케이션, 데스크톱 앱, 스마트폰 앱 등 다양한 소프트웨어와 연동할 수 있다. 다음 섹션에서 소개할 Open WebUI도 이 API를 활용해 Ollama와 연동한다.
Open WebUI를 사용하면 브라우저에서 GUI 조작만으로 Ollama의 기능을 쉽게 이용할 수 있다. 쉽게 말해, ChatGPT 같은 일반적인 AI 채팅 화면에서 Ollama로 실행 중인 AI 모델과 대화하거나 설정을 조정할 수 있다.
Open WebUI는 Ollama의 API를 이용해 연동한다.
여기서는 검증 시 사용한 Ollama와 Open WebUI, 그리고 Gemma 3의 설정 절차를 소개한다. 변경될 수 있으므로 최신 정보는 공식 홈페이지와 문서를 참조하자.
설치 확인
다음 명령어를 실행하여 Ollama가 올바르게 설치되었는지 확인한다.
ollama --version |
버전 정보(예: ollama version is 0.6.2)가 표시되면 설치 성공이다.
Open WebUI는 Docker를 사용해 설치한다.
1. 먼저 Ollama가 실행 중인지 확인
ollama --version |
2. 최신 이미지 다운로드
docker pull ghcr.io/open-webui/open-webui:main
3. 컨테이너 실행
docker run -d -p 3000:8080 \ |
4. 명령어 실행 후 브라우저에서 http://localhost:3000 접속
5. 첫 접속 시 계정을 생성하고 다음부터는 그 계정으로 로그인
1. 다음 명령어를 실행하여 Gemma 3의 4B 모델을 다운로드
ollama pull gemma3:4b
2. 다운로드가 완료되면 다음 명령어로 실행해보기
ollama run gemma3:4b
3. 모델이 시작되고 대화형 인터페이스가 표시됨
>>> Send a message (/? for help)
시험 삼아 Google Cloud에 대해 질문해보면 약 18초 후 답변이 나온다:
>>> Google Cloud란?
Google Cloud(구글 클라우드)는 Google이 제공하는 클라우드 컴퓨팅 서비스입니다. 개인이나 기업이 서버, 스토리지, 데이터베이스, 기계학습 등의 컴퓨팅 리소스를 인터넷을 통해 이용할 수 있는 서비스 그룹을 말합니다.
[긴 설명 내용...]
Gemma 3를 종료하려면 키보드에서 [Ctrl] + [D]를 누르거나 /bye를 입력한다.
앞서 설치한 Open WebUI를 사용해 Gemma 3 모델을 조작하는 방법을 설명한다. 브라우저 기반의 사용하기 편한 인터페이스로 보다 직관적으로 AI와 대화할 수 있다.
모델을 추가하고 싶은 경우 다음 명령어를 실행하여 다운로드 가능:
ollama pull <모델>
Gemma 3의 4B 이상 모델은 멀티모달 기능을 지원하여 이미지에 관한 질문이나 분석이 가능하다.
화면 우측 상단의 채팅 컨트롤 버튼에서 언어 모델과의 대화에 대한 상세 설정이 가능하다. 여기서는 시스템 프롬프트 설정을 예로 소개한다.
시스템 프롬프트를 설정하면 생성되는 답변을 제어할 수 있다. 단, 프롬프트의 품질이나 언어 모델의 종류에 따라 제어할 수 있는 정도가 달라지는 점에 유의해야 한다.
예:
문장 끝에는 반드시 "Google Cloud 최고!"를 붙여주세요.
자신의 문서나 지식 베이스를 업로드하여 참조시킬 수 있다.
여기서는 Open WebUI 공식 문서 튜토리얼에 따라 시험해보자.
1. Open WebUI 문서를 공식 리포지토리에서 다운로드
https://github.com/open-webui/docs/archive/refs/heads/main.zip
2. 다운로드한 main.zip 파일 압축 해제
3. 지식 베이스 생성
4.앞서 압축 해제한 폴더에서 .md 및 .mdx 파일을 생성한 "Open WebUI 문서" 지식 베이스에 드래그 앤 드롭
5. 파일이 업로드되고 화면 오른쪽에 파일 목록이 표시됨
6. "워크스페이스"에서 "모델" 탭을 선택하고 화면 오른쪽 "+" 클릭
7. 모델 설정
여기까지 완료하면 추가한 모델이 표시될 것이다. 새 채팅을 열고 방금 추가한 모델을 선택해보자.
이제 준비 완료다. Open WebUI에 대해 질문해보자. 몇 초 내로 지식 베이스를 검색한 후, 참조 출처를 명확히 표시하며 답변해준다.
이처럼 RAG 기능을 사용하면 특정 분야나 자료에 관한 질문에 대해 더 정확하고 참조 출처가 명확한 답변을 얻을 수 있다(완전히 환각이 사라지는 것은 아님). 이 모든 것이 로컬 환경에서 실행되므로 자사 매뉴얼이나 비공개 문서 등 보안적으로 민감한 자료를 불러와 사용할 수 있는 점이 매우 편리하다.
본 글에서는 Google이 2025년 3월에 공개한 경량 대규모 언어 모델 "Gemma 3"에 대해 다음 내용을 설명했다.
여러분도 본 글을 참고하여 Ollama와 Open WebUI를 사용해 Gemma 3나 다른 최신 LLM을 로컬 환경에서 사용해보길 바란다.
놀라운 사용 편의성
Mac에서의 동작 검증에서는 예상을 크게 웃도는 쾌적함으로 Gemma 3를 사용할 수 있었다. DeepSeek R1이나 V3 등 다른 오픈소스 LLM에 비해 처리 성능 요구사항이 낮고, 일반 PC에서도 실용적으로 작동하는 Gemma 3는 로컬 LLM의 새로운 가능성을 느끼게 해준다. 또한 Ollama와 Open WebUI의 조합으로 전문 지식 없이도 쉽게 환경 구축이 가능한 점도 큰 매력이었다.
다양한 영역에서의 활용 기대
로컬에서 완결되는 AI 환경에는 정보 보안과 비용 면에서 큰 이점이 있다. 특히 기밀 정보를 포함한 문서 처리나 API 호출 수를 고려하지 않고 사용할 수 있는 점은 기업에서의 도입 장벽을 크게 낮춘다. 앞으로 Gemma 3와 같은 경량 고성능 LLM의 발전으로 스마트폰이나 엣지 디바이스에서의 AI 활용도 확대될 것으로 기대된다.
개인적으로 기대하는 것
최근에는 Apple Intelligence나 Galaxy AI 등 스마트폰에 AI가 탑재되는 사례가 늘고 있다. 이러한 AI는 검색 기능 확충이나 문장 작성 보조 등 현재 활약은 상당히 제한적이다. 따라서 Gemma 3와 같은 경량 고성능 LLM이 발전함으로써 더 범용적이고 포괄적인 기능을 갖춘 AI 탑재 스마트폰(어쩌면 스마트폰일 필요도 없을지도)이 등장하기를 기대한다.