월 1.5달러로 맥북에서 AI 에이전트 돌리기

클라우드 API 비용 청구서를 보며 한숨 쉬던 시절이 있었다. GPT-4 API로 간단한 자동화 스크립트 돌렸다가 월말에 깜짝 놀란 적, 개발자라면 한 번쯤 있을 거다.

그런데 요즘 Apple Silicon 맥북을 쓰고 있다면, 상황이 달라졌다. MLX 덕분이다.

MLX가 뭔데

Apple이 만든 머신러닝 프레임워크다. M1, M2, M3, M4, 그리고 이제 M5까지 – 애플 실리콘의 Neural Engine과 GPU를 제대로 활용하도록 설계됐다. PyTorch 쓰던 사람이면 문법이 거의 똑같아서 적응도 빠르다.

진짜 의미 있는 건 이거다: 로컬에서 LLM을 돌릴 수 있다. 그것도 꽤 빠르게.

전기세다. M3 Pro 맥북에서 Llama 3 8B 모델을 하루 8시간씩 돌린다고 가정했을 때의 전력 소비량을 계산하면, 월 전기세가 약 1.5달러 정도 나온다. 물론 이미 맥북이 있다는 전제 하에.

Claude API로 같은 작업량을 처리하면? 토큰당 과금 구조에서 수십 달러는 기본이다. 복잡한 에이전트 워크플로우라면 수백 달러도 금방이다.

내가 요즘 쓰는 세팅을 공유하면:

GPT-4급 성능은 아니다. 솔직히 말하면 꽤 차이 난다. 하지만 “충분히 좋은” 수준은 된다. 특히 반복적인 작업에서는 비용 대비 효율이 압도적이다.

Homebrew로 mlx 설치하고, mlx-community에서 양자화된 모델 받아서 올리면 끝이다. 30분이면 첫 번째 로컬 AI 에이전트가 돌아간다.

pip install mlx-lm
huggingface-cli download mlx-community/Llama-3-8B-Instruct-4bit

20년 전에 서버 한 대 구하려고 IDC 돌아다니던 시절이 생각난다. 지금은 손바닥만 한 노트북에서 AI가 돌아간다. 세상 참 많이 변했다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

Categories:

오픈소스 기여는 어렵게 느껴진다. 하지만 코드를 작성하는 것만이 기여가 아니다. 문서화, 버그 리포트, 번역, 테스트도…

Vite 7 이후 Vite 8 베타가 발표됐다. 가장 큰 변화는 Rolldown의 탑재다. Rollup을 Rust로 다시…

악성코드와의 전쟁 YARA. 보안 업계에서 이 이름은 마치 스위스 군용 칼 같은 존재다. 악성코드를 식별하고…