Ollama로 Llama 4·Llama 3 로컬 실행하기 — 오픈소스 LLM 설치 완전 가이드

Q: 완전 오프라인 환경에서도 쓸 수 있나요?

모델을 한 번 내려받은 뒤에는 인터넷 연결 없이 실행된다. `ollama pull`은 다운로드 단계에서만 네트워크가 필요하다. 오프라인 환경에 배포하려면 다른 기기에서 `~/.ollama/models/` 디렉토리를 통째로 복사하면 된다.

Mac·Windows에서 Ollama를 설치하고 Llama 4 Scout·Llama 3 시리즈를 로컬에서 실행하는 단계별 가이드. 모델 선택 기준, Open WebUI 연결, CVE-2026-7482 보안 대응법까지 한 번에 정리한다.

편집부 · 2026.05.14 · 15분 읽기

Ollama로 Llama 4·Llama 3 로컬 실행하기 — 오픈소스 LLM 설치 완전 가이드

로컬 LLM을 써야 하는 이유 — 클라우드 AI와 무엇이 다른가

ChatGPT나 Claude에 회사 코드를 붙여 넣을 때마다 불안했다면, 로컬 LLM이 그 불안을 해소하는 가장 직접적인 답이다. 입력 데이터가 외부 서버로 전송되지 않으니 민감한 코드·계약서·개인정보를 다루는 업무에도 쓸 수 있다.

비용도 다르다. 클라우드 AI는 토큰 단위 과금이라 장문 작업에 부담이 쌓이지만, 로컬 LLM은 처음 모델을 내려받은 뒤로는 추가 비용이 없다. 인터넷 연결도 필요 없어 오프라인 환경에서 그대로 동작한다.

단점을 솔직히 말하면, GPT-4o나 Claude Sonnet 같은 최신 클라우드 모델과 성능 격차는 여전히 있다. 복잡한 추론이나 최신 정보 반영에서 차이가 드러난다. 초기 설정도 클라우드 서비스보다 손이 간다. 클라우드 AI가 더 맞는 경우도 분명히 있으니 용도에 따라 병행 운용하는 것이 현실적이다.

로컬 LLM이 가장 잘 맞는 사용자는 개발자, 민감 데이터를 다루는 직군, AI 작동 원리를 직접 파악하고 싶은 학습 목적의 사람들이다.

하드웨어 요구사항 — 내 PC에서 돌릴 수 있나

모델을 통째로 RAM(또는 VRAM)에 올리는 구조여서, RAM 크기가 실행 가능한 모델 크기를 직접 결정한다.

모델	최소 RAM	권장 RAM
Llama 3.2 1B / 3B	4GB	8GB
Llama 3.2 7B 계열	8GB	16GB
Llama 3.3 70B	48GB	64GB
Llama 4 Scout (17B 활성 파라미터)	24GB	32GB 이상

GPU 가속은 자동 감지된다. Apple Silicon은 Metal Performance Shaders(MPS)로 즉시 동작하고, NVIDIA는 CUDA, AMD는 ROCm 드라이버가 있으면 GPU 레이어 오프로딩이 활성화된다. GPU VRAM이 부족하면 남은 레이어를 CPU/RAM으로 처리하는 혼합 모드로 fallback된다.

16GB MacBook이라면 Llama 3.2 7B 계열이 적당하고, 8GB 저사양 PC라면 Llama 3.2 3B 또는 1B로 시작하는 게 현실적이다. 디스크 여유는 모델 크기에 따라 2GB(소형)에서 40GB 이상(대형)까지 잡아야 한다.

Ollama 설치 — Mac·Windows·Linux 환경별 방법

Mac

터미널에서 한 줄로 설치된다.

curl -fsSL https://ollama.com/install.sh | sh

또는 공식 사이트에서 .dmg 패키지를 내려받아 앱처럼 설치할 수도 있다. .dmg 방식을 선택하면 메뉴바 아이콘으로 서버 상태를 바로 확인할 수 있어 편하다.

Windows

공식 사이트에서 .exe 인스톨러를 내려받아 실행한다. 설치 후 Ollama는 시스템 트레이에서 자동 실행된다.

주의: Windows 자동 업데이터에 CVE-2026-42248·CVE-2026-42249 취약점이 있다(아래 보안 섹션 참조). 설치 직후 자동 업데이트를 비활성화하고 수동 업데이트 방식으로 전환할 것을 강력히 권장한다.

Linux

curl -fsSL https://ollama.com/install.sh | sh

설치 스크립트가 /etc/systemd/system/ollama.service를 생성하므로 systemctl enable --now ollama로 부팅 시 자동 시작을 설정할 수 있다.

설치 확인

ollama --version

버전 번호가 출력되면 정상이다. GPU 가속이 감지됐는지 확인하려면 ollama run llama3.2:3b를 실행한 뒤 프롬프트에 /info를 입력하면 사용 중인 레이어 분배(GPU/CPU)를 볼 수 있다.

모델 선택과 다운로드 — Llama 4 Scout, Llama 3.3, 소형 모델 비교

Ollama 라이브러리에서 지원 모델 전체를 볼 수 있다. 현실적인 선택지를 정리하면 이렇다.

모델 태그	특징	최소 RAM	적합 용도
`llama3.2:1b`	최경량	4GB	저사양 입문·테스트
`llama3.2:3b`	빠른 응답	6GB	간단한 일반 대화
`llama3.3:70b`	고품질 텍스트	48GB	고사양 워크스테이션
`llama4:scout`	멀티모달, MoE	24GB+	GPU 장착 고사양 PC

Meta가 2025년 4월 공개한 Llama 4 Scout는 17B 활성 파라미터에 총 109B MoE 구조로, 이미지 입력까지 지원하는 멀티모달 모델이다. 동시에 공개된 Llama 4 Maverick은 400B MoE로 메모리 요구량이 더 높아 일반 PC에서는 비현실적이다. Scout도 24GB 이상의 여유 메모리가 있어야 실용적이니, 여유가 없다면 Llama 3.2 계열로 시작하는 편이 낫다.

# 다운로드
ollama pull llama4:scout
ollama pull llama3.2:3b

# 설치된 모델 확인
ollama list

# 모델 삭제 (용량 회수)
ollama rm llama3.2:3b

모델 파일은 기본적으로 ~/.ollama/models/에 저장된다. 여러 모델을 쌓다 보면 디스크가 빠르게 찬다. 사용하지 않는 모델은 ollama rm으로 정리하는 습관을 들이는 게 좋다.

첫 실행 — 터미널 대화부터 REST API 호출까지

터미널 대화

ollama run llama4:scout

프롬프트가 뜨면 바로 입력하면 된다. 종료는 /exit 또는 Ctrl+D다. /help를 입력하면 대화 중 쓸 수 있는 슬래시 명령 목록이 나온다.

REST API

Ollama는 기본적으로 http://localhost:11434에서 HTTP API를 서빙한다.

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama4:scout",
    "prompt": "한국어로 설명해줘: 머신러닝이란?",
    "stream": false
  }'

"stream": true로 설정하면 토큰이 생성되는 즉시 스트리밍으로 받을 수 있다.

OpenAI 호환 엔드포인트

기존 OpenAI SDK를 사용하는 코드가 있다면 엔드포인트만 교체하면 된다.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama4:scout",
    "messages": [{"role": "user", "content": "안녕"}]
  }'

/v1/chat/completions는 OpenAI API와 동일한 스펙이라 Python의 openai 라이브러리에서 base_url만 http://localhost:11434로 바꾸면 그대로 쓸 수 있다.

최근 릴리즈부터 /api/show 응답이 캐싱되어 반복 API 요청의 중앙값 지연이 약 6.7배 줄었다. 여러 애플리케이션이 동시에 모델 정보를 조회하는 환경에서 체감 차이가 크다.

Open WebUI 설치 — 브라우저에서 ChatGPT처럼 사용하기

터미널이 익숙하지 않거나 대화 기록·모델 전환을 GUI로 관리하고 싶다면 Open WebUI가 가장 빠른 선택이다.

Docker 방식 (권장)

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

브라우저에서 http://localhost:3000을 열면 된다. Settings → Connections에서 Ollama URL을 http://host.docker.internal:11434로 설정하면 로컬 Ollama와 연결된다.

Docker 없는 환경

pip install open-webui
open-webui serve

http://localhost:8080으로 접근하면 된다.

Open WebUI에서는 대화 기록 관리, 모델 전환(드롭다운), 이미지 업로드(Llama 4 Scout 같은 멀티모달 모델 연결 시)를 모두 GUI에서 처리할 수 있다. 소규모 팀에서 같은 서버를 공유한다면 계정 및 권한 관리 기능도 내장되어 있다.

보안 설정 — ‘Bleeding Llama’ 취약점과 안전한 운용법

Ollama를 설치하고 방치하면 생각보다 큰 보안 위험이 따른다. 2026년 들어 세 가지 CVE가 연달아 발표됐으니 운용 전에 반드시 점검해야 한다.

CVE-2026-7482 — ‘Bleeding Llama’ (CVSS 9.1)

보안 연구 보고에 따르면, 구버전 Ollama의 GGUF 모델 로더에 힙 out-of-bounds read 취약점이 있다. 공격자가 조작된 모델 파일이나 API 요청으로 프로세스 메모리를 인증 없이 읽을 수 있어, API 키·시스템 프롬프트·대화 데이터가 유출될 수 있다. 패치는 0.17.1에서 이미 나왔다. 오래된 버전이 설치되어 있다면 즉시 업데이트해야 한다.

# Mac/Linux 업데이트
curl -fsSL https://ollama.com/install.sh | sh

# 버전 확인 (0.17.1 이상이어야 함)
ollama --version

CVE-2026-42248 / CVE-2026-42249 — Windows 자동 업데이터 취약점

Help Net Security 보고서에 따르면 Windows 자동 업데이터의 서명 검증 미동작(42248)과 경로 탐색(42249)을 연쇄 활용하면, 로그인마다 실행되는 영구 악성 파일을 심을 수 있다. 현재 공식 임시 완화책은 자동 업데이트 기능을 비활성화하는 것이다. 시스템 트레이 아이콘 메뉴에서 Auto Update 옵션을 끄면 된다.

외부 노출 방지

Ollama의 기본 수신 주소는 127.0.0.1:11434(localhost only)다. 이 설정을 바꾸지 않는 한 외부에서 직접 접근할 수 없다. 다른 기기에서 접근하거나 서버에 배포할 때는 OLLAMA_HOST 환경변수로 수신 범위를 명시적으로 지정하고, 방화벽과 인증 레이어를 반드시 추가해야 한다.

# 내부망 특정 IP만 허용
export OLLAMA_HOST=192.168.1.100:11434

# 이렇게 하면 인터넷에 전체 노출되므로 절대 금지
# export OLLAMA_HOST=0.0.0.0:11434

요약하면 버전은 최신 유지, localhost 바인딩 유지, Windows 자동 업데이트 비활성화 — 이 세 가지만 지켜도 알려진 공격 벡터 대부분이 차단된다.

자주 묻는 질문

Q. M1/M2 맥북에서 Llama 4 Scout를 돌릴 수 있나요?

Unified Memory를 32GB 이상 탑재한 MacBook Pro(M2 Pro·Max 이상, M3·M4 계열)라면 실행 가능하다. Apple Silicon은 Metal Performance Shaders로 자동 가속이 적용된다. 다만 생성 속도는 NVIDIA GPU를 탑재한 워크스테이션보다 느리다. 16GB 모델에서는 Llama 4 Scout보다 Llama 3.2 7B나 3B가 훨씬 실용적이다.

Q. Ollama와 LM Studio, 뭐가 다른가요?

LM Studio는 GUI 중심이고 모델 탐색·다운로드 UX가 편하다. Ollama는 CLI와 REST API 중심이라 스크립트·앱 연동에 적합하다. 개발자라면 Ollama가 더 유연하고, 처음 로컬 LLM을 접하는 비개발자라면 LM Studio가 진입 장벽이 낮다. 둘 다 무료다.

Q. 완전 오프라인 환경에서도 쓸 수 있나요?

모델을 한 번 내려받은 뒤에는 인터넷 연결 없이 실행된다. ollama pull은 다운로드 단계에서만 네트워크가 필요하다. 오프라인 환경에 배포하려면 다른 기기에서 ~/.ollama/models/ 디렉토리를 통째로 복사하면 된다.

Q. Open WebUI를 팀원과 공유해도 되나요?

가능하다. Open WebUI는 사용자 계정과 권한 관리를 내장하고 있다. 다만 내부 네트워크에만 노출하거나, 외부에서 접근할 경우 리버스 프록시(Nginx 등)와 HTTPS를 앞에 두어야 한다. Ollama 자체도 앞서 설명한 보안 설정을 함께 적용해야 공격 면을 최소화할 수 있다.

단계별 실행 가이드

1단계. Ollama 설치

Mac이나 Linux는 터미널에서 curl -fsSL https://ollama.com/install.sh | sh를 실행한다. Windows는 공식 사이트에서 .exe 인스톨러를 내려받아 실행하고, 설치 후 자동 업데이트를 비활성화한다. 끝나면 ollama --version으로 설치를 확인한다.

2단계. 모델 선택 및 다운로드

자신의 RAM 여유에 맞는 모델을 고른다. 8GB라면 llama3.2:3b, 16GB라면 llama3.2:7b, 32GB 이상이면 llama4:scout를 시도할 수 있다. ollama pull <모델명> 명령으로 다운로드한다.

3단계. 터미널에서 첫 실행

ollama run <모델명> 명령으로 대화형 세션을 시작한다. 응답이 정상적으로 오면 설치 성공이다. /exit로 종료한다.

4단계. REST API 연동 확인 (선택)

curl http://localhost:11434/api/generate로 API 응답을 확인한다. OpenAI SDK를 쓰는 기존 프로젝트라면 base_url을 http://localhost:11434로 바꿔 /v1/chat/completions 엔드포인트로 바로 연동할 수 있다.

5단계. Open WebUI 설치 (선택)

Docker가 있다면 앞서 안내한 docker run 명령을 실행하고 http://localhost:3000에서 접근을 확인한다. Settings → Connections에서 Ollama URL을 http://host.docker.internal:11434로 맞춘다.

6단계. 보안 점검

ollama --version 출력이 0.17.1 이상인지 확인한다. Windows 사용자라면 자동 업데이트를 끈다. Ollama가 외부 IP에 바인딩되어 있지 않은지 OLLAMA_HOST 환경변수를 점검한다. 이 세 가지가 완료되면 안전한 운용 환경이 갖춰진 것이다.

#ollama#llama#로컬LLM#오픈소스AI#llm설치