요즘 ChatGPT, Claude 같은 AI 서비스를 쓰다 보면 한 가지 고민이 생깁니다. "내 데이터가 외부 서버로 나가는 건 괜찮은 걸까?" 혹은 "인터넷 없이도 AI를 쓸 수 있으면 좋겠는데…" 이런 분들에게 Ollama는 정말 반가운 도구입니다. 오늘은 로컬 LLM의 대표 주자인 Ollama 설치부터 실전 활용까지, 직접 써본 경험을 바탕으로 솔직하게 정리해 보겠습니다.
1. Ollama란 무엇인가?
1-1. 로컬 LLM의 개념
로컬 LLM이란 클라우드 서버가 아닌 내 컴퓨터에서 직접 돌리는 대규모 언어 모델을 말합니다. 데이터가 외부로 전송되지 않기 때문에 프라이버시가 보장되고, 인터넷 연결 없이도 AI를 사용할 수 있다는 게 가장 큰 장점입니다. 기업 내부 문서 분석이나 민감한 코드 리뷰처럼 보안이 중요한 작업에 특히 유용합니다.
1-2. Ollama가 주목받는 이유
Ollama는 로컬 LLM을 누구나 쉽게 설치하고 실행할 수 있도록 만든 오픈소스 AI 도구입니다. 기존에는 로컬에서 LLM을 돌리려면 Python 환경 세팅, 모델 변환, 의존성 관리 등 복잡한 과정을 거쳐야 했습니다. Ollama는 이 모든 과정을 단 한두 줄의 명령어로 해결해 줍니다. Docker처럼 모델을 pull 받아서 바로 실행하는 방식이라, 개발자가 아니어도 충분히 따라할 수 있습니다.
1-3. 지원 모델 한눈에 보기
Ollama는 다양한 오픈소스 모델을 지원합니다. 대표적으로 Meta의 Llama 3.1, Google의 Gemma 2, Microsoft의 Phi-3, Mistral AI의 Mixtral, 코딩 특화 모델인 CodeLlama와 DeepSeek Coder 등이 있습니다. 용도에 따라 모델을 골라 쓸 수 있다는 것이 큰 매력입니다.
2. Ollama 설치 방법 (OS별 가이드)
2-1. Windows 설치
Windows에서는 공식 사이트(ollama.com)에서 설치 파일을 다운로드한 뒤 실행하면 됩니다. 설치가 완료되면 시스템 트레이에 Ollama 아이콘이 나타납니다. 터미널(PowerShell 또는 CMD)을 열고 ollama run llama3.1을 입력하면 모델 다운로드와 실행이 자동으로 진행됩니다. GPU가 있다면 CUDA를 자동 감지해서 GPU 가속을 활용합니다.
2-2. macOS 설치
macOS 사용자라면 공식 사이트에서 dmg 파일을 받거나, Homebrew를 통해 brew install ollama 한 줄로 설치할 수 있습니다. Apple Silicon(M1/M2/M3/M4) 칩에서는 Metal GPU 가속을 자동으로 활용하기 때문에 생각보다 꽤 빠른 응답 속도를 경험할 수 있습니다. 개인적으로 M2 Pro 기준 Llama 3.1 8B 모델이 초당 약 30토큰 정도로 충분히 쾌적했습니다.
2-3. Linux 설치
Linux에서는 공식 설치 스크립트 한 줄이면 끝입니다. curl -fsSL https://ollama.com/install.sh | sh를 실행하면 자동으로 설치되고, systemd 서비스로 등록됩니다. NVIDIA GPU 사용자는 CUDA 드라이버만 미리 설치해 두면 별도 설정 없이 GPU 가속이 적용됩니다.
3. 실전 활용법과 꿀팁
3-1. 기본 명령어 익히기
Ollama의 핵심 명령어는 매우 간단합니다. ollama pull 모델명으로 모델을 미리 다운로드하고, ollama run 모델명으로 대화를 시작합니다. ollama list로 설치된 모델 목록을 확인하고, ollama rm 모델명으로 불필요한 모델을 삭제할 수 있습니다. REST API도 기본 제공되어 localhost:11434로 다른 애플리케이션에서 호출할 수 있습니다.
3-2. 실제 사용 팁 모음
- 팁 1: 용도별 모델 선택이 핵심입니다. 일반 대화나 요약에는 Llama 3.1 8B, 코딩 작업에는 DeepSeek Coder나 CodeLlama, 가벼운 작업에는 Phi-3 Mini를 추천합니다. 무조건 큰 모델이 좋은 게 아니라 VRAM과 용도에 맞는 모델을 고르는 것이 훨씬 중요합니다.
- 팁 2: Modelfile로 나만의 AI 비서를 만드세요. Ollama는 Dockerfile과 비슷한 Modelfile 문법을 지원합니다. 시스템 프롬프트, 온도(temperature), 컨텍스트 길이 등을 미리 설정해서 나만의 커스텀 모델을 만들 수 있습니다. 예를 들어 "한국어로만 답변하는 번역 도우미"나 "코드 리뷰 전문가" 같은 맞춤형 AI를 구성할 수 있습니다.
- 팁 3: Open WebUI와 연동하면 ChatGPT 같은 UI를 얻습니다. Ollama 자체는 터미널 기반이지만, Open WebUI(구 Ollama WebUI)를 함께 설치하면 브라우저에서 ChatGPT와 거의 동일한 인터페이스로 대화할 수 있습니다. Docker로 간단히 띄울 수 있고, 대화 기록 저장과 모델 전환도 지원합니다.
- 팁 4: GPU VRAM이 부족하면 양자화 모델을 활용하세요. 같은 모델이라도 q4_0, q5_1, q8_0 등 양자화 수준에 따라 VRAM 사용량이 크게 달라집니다. 8GB VRAM이라면 7B~8B 파라미터의 q4 양자화 모델이 적당하고, 16GB 이상이면 13B 모델도 충분히 돌릴 수 있습니다.
3-3. API 연동으로 확장하기
Ollama는 OpenAI 호환 API를 제공하기 때문에, 기존에 OpenAI API를 사용하던 코드에서 엔드포인트 주소만 바꾸면 거의 그대로 동작합니다. LangChain, LlamaIndex 같은 프레임워크와도 매끄럽게 연동되어, RAG(검색 증강 생성) 파이프라인을 로컬에서 구축하는 것도 가능합니다. 회사 내부 문서를 임베딩해서 사내 전용 AI 검색 시스템을 만드는 사례도 실제로 많습니다.
4. 장단점 비교
4-1. 클라우드 AI vs 로컬 LLM 비교표
| 비교 항목 | 클라우드 AI (ChatGPT 등) | 로컬 LLM (Ollama) |
|---|---|---|
| 데이터 프라이버시 | 외부 서버 전송 (정책에 따라 학습에 활용 가능) | 내 컴퓨터에서만 처리, 완전한 프라이버시 보장 |
| 인터넷 필요 여부 | 필수 | 모델 다운로드 후 오프라인 사용 가능 |
| 비용 | 월 구독료 또는 토큰당 과금 | 완전 무료 (전기세와 하드웨어 비용만) |
| 응답 품질 | 최신 대형 모델로 높은 품질 | 모델 크기에 따라 다소 차이 있음 |
| 응답 속도 | 서버 상황에 따라 변동 | 하드웨어 성능에 비례, GPU 있으면 빠름 |
| 커스터마이징 | 제한적 (시스템 프롬프트 수준) | 모델 파인튜닝, Modelfile 등 자유도 높음 |
| 초기 설정 난이도 | 회원가입만 하면 바로 사용 | 설치 필요하지만 Ollama 덕에 매우 쉬워짐 |
| 하드웨어 요구사항 | 없음 | 최소 8GB RAM, GPU 권장 |
4-2. 솔직한 체감 후기
솔직히 말하면, 현재 로컬에서 돌릴 수 있는 7B~13B급 모델이 GPT-4나 Claude 수준의 품질을 내기는 어렵습니다. 특히 복잡한 추론이나 긴 맥락의 대화에서는 체감 차이가 분명히 있습니다. 하지만 간단한 코드 생성, 텍스트 요약, 번역, 문서 초안 작성 같은 작업에서는 충분히 실용적인 수준입니다. 무엇보다 API 호출 비용이 전혀 들지 않으니, 대량 처리 작업에서는 오히려 로컬 LLM이 경제적으로 압도적인 우위를 가집니다.
5. 마무리: 누구에게 추천할까?
5-1. 이런 분들에게 강력 추천합니다
- 데이터 보안이 중요한 개발자와 기업: 사내 코드나 기밀 문서를 AI로 분석하고 싶지만 외부 유출이 걱정되는 분들에게 Ollama는 최적의 선택입니다.
- AI 개발을 공부하는 학생과 입문자: 비용 걱정 없이 다양한 오픈소스 AI 모델을 직접 실험해 볼 수 있어 학습용으로 최고입니다.
- API 비용을 절감하고 싶은 스타트업: 대량의 텍스트 처리가 필요한데 OpenAI API 비용이 부담되는 경우, 로컬 LLM으로 전환하면 상당한 비용을 아낄 수 있습니다.
- 오프라인 환경에서 AI가 필요한 분: 비행기 안, 보안 네트워크, 인터넷이 불안정한 환경에서도 AI를 활용해야 하는 분들에게 유용합니다.
5-2. 이런 분들은 클라우드 AI가 나을 수 있습니다
- 최고 수준의 응답 품질이 항상 필요한 경우
- GPU가 없는 저사양 PC만 보유한 경우
- 설치나 관리에 시간을 쓰고 싶지 않은 경우
Ollama와 로컬 LLM은 클라우드 AI를 완전히 대체하는 도구가 아니라, 상호 보완적인 관계로 보는 것이 맞습니다. 보안이 필요한 작업은 로컬에서, 고품질 결과가 필요한 작업은 클라우드에서 처리하는 하이브리드 방식이 현실적으로 가장 현명한 전략입니다. 아직 오픈소스 AI 모델을 직접 돌려본 적 없다면, 오늘 바로 Ollama를 설치해서 경험해 보시길 추천드립니다. 생각보다 훨씬 쉽고, 한번 맛보면 빠져들 겁니다.