클라우드 API 비용과 데이터 프라이버시 우려로 로컬 AI 모델 배포에 대한 관심이 높아지고 있습니다. Ollama, llama.cpp 등 도구를 활용해 내 컴퓨터에서 LLM을 실행하는 방법을 알아봅니다.
로컬 AI의 장점
- 프라이버시: 민감한 데이터가 외부로 전송되지 않음
- 비용 절감: API 호출 비용 없이 무제한 사용
- 오프라인 사용: 인터넷 연결 없이도 작동
- 커스터마이징: 파인튜닝, 프롬프트 최적화 자유도
Ollama: 가장 쉬운 시작
Ollama는 로컬 LLM 실행을 극도로 간소화한 도구입니다. Docker처럼 모델을 pull하고 바로 실행할 수 있습니다.
# 설치 (macOS/Linux)
curl -fsSL https://ollama.ai/install.sh | sh
# 모델 실행
ollama run llama3.2
ollama run mistral
ollama run codellama
OpenAI 호환 API 서버도 내장되어 있어 기존 애플리케이션과 쉽게 연동됩니다.
llama.cpp: 최적화의 끝판왕
C/C++로 작성된 llama.cpp는 다양한 하드웨어에서 최적화된 추론을 제공합니다. 양자화(Quantization)를 통해 모델 크기를 대폭 줄이면서도 품질을 유지합니다.
- Q4_K_M: 품질과 크기의 균형 (추천)
- Q8_0: 높은 품질, 더 큰 크기
- Q2_K: 최소 크기, 품질 저하
하드웨어 요구사항
7B 모델은 8GB RAM에서, 13B는 16GB에서, 70B는 64GB 이상 또는 GPU가 필요합니다. Apple Silicon Mac은 통합 메모리 덕분에 뛰어난 가성비를 보여줍니다.
추천 모델
- 일반 대화: Llama 3.2, Mistral
- 코딩: CodeLlama, DeepSeek Coder
- 한국어: EEVE-Korean, Llama-3-Korean
실전 활용
로컬 모델은 IDE 플러그인(Continue, Cody), 노트 앱(Obsidian), 터미널 도구 등과 연동하여 일상 워크플로우에 통합할 수 있습니다. 클라우드 API와 로컬 모델을 상황에 맞게 조합하는 것이 가장 현명한 전략입니다.