📚 이 글의 전체 가이드AI 부업 허브

AI 도구 선택부터 월 100만 원 부업까지 실행 순서 큐레이션

2024년 늦가을, M1 맥북 프로 16GB 한 대로 로컬에서 Llama 3 8B를 처음 띄웠을 때를 또렷이 기억한다. “AI는 반드시 클라우드"라는 통념이 깨지는 순간이었다. 인터넷이 없는 카페에서, ChatGPT API 호출량 걱정 없이, 회사 보안 정책에 걸리는 코드 스니펫을 그대로 붙여 넣고 답을 받아본 경험. 한 번 맛보면 돌아가기 어렵다.

다만 처음 몇 주는 시행착오의 연속이었다. 13B 모델을 무리하게 띄우려다 맥북이 멈춰버리거나, 양자화 옵션을 잘못 골라 답변 품질이 무너지거나, 컨텍스트 윈도우를 너무 늘려 토큰당 1초씩 걸리는 일이 일상이었다. 1년 가까이 굴리며 얻은 결론은 명확하다. M1 맥북은 로컬 LLM 입문기로 거의 완벽한 조합이지만, 그걸 잘 쓰려면 메모리·모델·양자화 세 가지를 정확히 이해해야 한다.

이 글은 그 셋을 처음부터 끝까지 정리한 실전 노트다. 어느 모델이 16GB에서 안정적으로 돌아가는지, 양자화 레벨은 어떻게 골라야 하는지, Ollama 같은 도구는 어디까지 자동으로 처리해주는지를 직접 부딪쳐본 경험으로 풀어낸다. M2·M3·M4 맥북에서도 본질은 같으니 가볍게 응용하면 된다.

Apple Silicon이 LLM에 의외로 잘 맞는 이유

Apple Silicon은 출시 당시 게이밍이나 그래픽 워크스테이션을 노린 칩이 아니었다. 그런데 Llama가 등장하고 llama.cpp 같은 추론 엔진이 통합 메모리(Unified Memory) 구조를 적극적으로 활용하면서 상황이 달라졌다. 일반 PC에서 GPU에 모델을 올리려면 VRAM 용량을 따로 따져야 하지만, M1·M2 맥북은 시스템 RAM과 GPU 메모리가 같은 풀에서 동작한다. 이 구조는 Apple Silicon의 가장 큰 이점이고, 같은 가격대 윈도우 노트북으로 70B 모델을 돌리려면 RTX 4090 외장 환경이 필요하다는 사실을 떠올리면 가성비 차이가 분명해진다.

또 하나 중요한 점은 메모리 대역폭이다. M1 Pro의 200GB/s대 대역폭은 일반 DDR5 노트북 RAM의 두 배 가까이 된다. LLM 추론은 메모리에서 가중치를 빠르게 읽어내는 게 곧 속도이기 때문에, 이 대역폭 차이가 토큰당 응답 속도로 직결된다.

16GB 모델이면 어디까지 가능할까

16GB 통합 메모리 기준으로는 보통 7B~8B 모델 4비트 양자화가 안정적인 상한선이다. 시스템 모니터로 메모리 사용량을 확인해 보면 8B Q4 모델 기준 6~8GB 정도, OS와 다른 앱이 6GB 정도를 점유한다. 13B는 4비트 양자화로 어떻게든 띄울 수는 있지만 다른 앱을 거의 못 켠다고 봐야 한다. 브라우저 탭 30개 켜놓고 LLM까지 돌리고 싶다면 16GB로는 무리다.

24GB·32GB라면 선택지가 두 배

24GB 모델은 13B Q4가 여유 있고 14B·MoE 일부 모델까지 시도할 만하다. 32GB부터는 30B 클래스가 들어오기 시작한다. 다만 70B 모델은 64GB·128GB 맥에서나 안정적으로 돌아간다는 점을 기억해두자. 16GB에서 70B를 띄우려는 건 사실상 SSD를 RAM처럼 쓰는 셈이라 토큰당 10초씩 걸리는 처참한 속도가 나온다.

Ollama 30분 셋업 — 첫 응답까지

Ollama 공식 사이트에서 dmg를 받아 설치하는 게 시작이자 사실상 끝이다. 별도의 환경설정·CUDA·Python 가상환경 없이 바로 동작한다. CLI 한 명령으로 첫 응답까지 가는 흐름은 다음과 같다.

  1. Ollama 공식 다운로드 페이지에서 macOS용 패키지(.dmg)를 받아 설치한다.
  2. 터미널에서 ollama --version을 입력해 설치를 확인한다.
  3. ollama pull llama3.1:8b 명령으로 8B 모델을 내려받는다 (약 4.7GB).
  4. ollama run llama3.1:8b를 입력하고 프롬프트에 질문을 던진다.
  5. 첫 토큰이 1초 이내에 떠오르면 셋업이 정상 완료된 상태다.

여기서 막히면 보통 모델 다운로드 단계에서 디스크 공간이 부족하거나, 회사 VPN이 GitHub Releases를 차단해 일부 모델 가중치를 내려받지 못하는 경우다. 둘 다 환경 문제이지 도구 문제가 아니다.

자주 마주치는 첫 셋업 함정

  • 모델을 내려받았는데 응답이 느리면 백그라운드에서 다른 LLM이 켜져 있는지 확인해보자. Ollama는 기본 30분간 모델을 메모리에 유지한다.
  • “시스템 환경설정 → 배터리 → 저전력 모드"가 켜져 있으면 추론 속도가 절반으로 떨어진다. 충전 중에도 켜져 있을 수 있으니 한 번 점검해두자.
  • macOS의 메모리 압축이 활성화되면 토큰 속도가 들쭉날쭉해진다. Activity Monitor 메모리 탭에서 “메모리 압력"이 노란색·빨간색이면 더 작은 양자화로 내려가는 게 빠르다.

모델 선택 — 7B vs 13B vs 70B, 내 맥에 뭐가 맞을까

가장 많이 받는 질문이다. 결론만 말하면, 대부분의 사용자에겐 8B Q4_K_M 모델이 첫 모델로 가장 균형이 좋다. 한국어 성능이 더 필요하면 한국어 특화 모델 EEVE나 Qwen 계열도 강력한 선택지다.

모델권장 RAM한국어영어/코드첫 토큰 속도 (M1 Pro)비고
Llama 3.1 8B Q416GB+⭐⭐⭐⭐⭐⭐⭐~0.3초입문용 1순위
Qwen2.5 7B Q416GB+⭐⭐⭐⭐⭐⭐⭐⭐~0.4초한국어 강세
Llama 3.1 70B Q464GB+⭐⭐⭐⭐⭐⭐⭐⭐⭐~3초16GB는 무리
Phi-3 Mini 3.8B8GB+⭐⭐⭐⭐⭐~0.2초가벼움·MS
DeepSeek-Coder 6.7B16GB+⭐⭐⭐⭐⭐⭐⭐~0.3초코딩 특화

표에 나온 첫 토큰 속도는 M1 Pro 16GB 기준 체감치이고, M2/M3 칩에서는 같은 모델이 1.5~2배 빠르게 응답한다. 다른 ML 라이브러리와 마찬가지로 Llama 계열은 Hugging Face에 공개된 가중치를 받아 다양한 추론 엔진에서 돌릴 수 있다.

처음 시작한다면 이 순서

  1. Llama 3.1 8B Q4_K_M으로 일주일 정도 일상 질문·코드 검토에 써본다.
  2. 한국어 응답이 어색하면 Qwen2.5 7B 또는 EEVE 10.8B로 갈아탄다.
  3. 코드 자동완성·리팩터링이 메인이면 DeepSeek-Coder 6.7B를 추가로 받아둔다.
  4. 메모리 24GB 이상이라면 Llama 3.1 13B Q4로 한 단계 올라가본다.

속도·발열을 잡는 4가지 실전 팁

체감 속도는 모델 크기보다 양자화·컨텍스트·동시 실행 처리에 더 크게 좌우된다. 같은 8B 모델이라도 양자화 옵션을 잘못 고르면 답이 30% 느려지고, 컨텍스트를 32K로 늘리면 메모리 사용이 두 배가 된다.

① 양자화는 Q4_K_M부터, 부족하면 Q5_K_M으로

양자화는 모델 가중치를 16비트나 8비트에서 4비트 등으로 낮춰 메모리·연산을 줄이는 기법이다. Q4_K_M은 메모리 절감과 품질 보존의 황금 구간으로 자주 권장된다. Q3 이하는 답변 품질이 눈에 띄게 떨어진다. Q8은 사실상 원본에 가까운 품질이지만 메모리를 두 배 먹기 때문에 16GB에서는 권장하지 않는다.

② 컨텍스트는 작업에 맞춰 최소화

기본 4K 컨텍스트도 일상 대화·코드 검토 정도엔 충분하다. 32K로 늘리면 메모리 사용이 크게 늘고 토큰당 속도도 함께 떨어진다. 긴 PDF 한 편을 통째로 요약해야 할 때만 늘리고, 평소엔 4K~8K로 두자. Ollama에선 OLLAMA_NUM_CTX 환경변수나 모델 옵션으로 조정 가능하다.

③ Activity Monitor를 띄워둔다

GPU 사용률이 100% 근처에서 흔들리지 않으면 메모리 압박일 가능성이 높다. 모델을 한 단계 작게 바꾸거나 양자화를 더 강한 쪽(Q4 → Q3은 비추, Q5 → Q4)으로 내리면 회복된다. 또 Activity Monitor의 “에너지” 탭에서 Ollama 프로세스가 평균 에너지 임팩트가 높다면 배터리를 빠르게 갉아먹는다는 신호다.

④ 발열 → 의외로 책상 받침이 답

15분 이상 추론을 연속으로 돌리면 thermal throttling이 시작된다. 알루미늄 노트북 받침대 하나만 사도 토큰 속도가 안정적으로 유지된다는 게 가장 비용 효율 좋은 팁이다. 외장 USB 팬을 붙이는 사람도 있는데, 받침대만으로 80% 효과는 본다.

로컬 LLM이 “안 맞는” 순간 — 솔직한 한계

이 글이 호의적인 톤으로 흘러왔지만, 로컬 LLM이 클라우드 API의 완전한 대체재는 아니다. 1년 굴려본 입장에서 솔직한 한계를 짚는다.

  • GPT-4o·Claude 4 수준의 추론은 아직 무리. 30B 이하 로컬 모델은 복잡한 다단계 추론, 긴 컨텍스트 일관성, 모호한 의도 파악에서 무너진다. 코드 리팩터링도 단순 변환은 가능하지만 아키텍처 수준의 결정은 클라우드가 압도적이다.
  • 장문 생성이 잦다면 클라우드가 빠르고 저렴하다. 토큰 수천 개를 매일 뽑는 작업이라면 API 비용이 전기·발열·시간 비용보다 결국 저렴하다. 블로그 초안 100개 뽑기 같은 워크로드는 무조건 GPT 쪽이 답이다.
  • 이미지·음성·영상 멀티모달은 로컬에서 아직 비싸다. Llama 3.2 Vision 정도가 한계고 안정성도 떨어진다. ChatGPT의 음성 대화나 Claude의 이미지 분석 수준을 로컬에서 재현하려면 RTX 4090 워크스테이션이 필요하다.
  • 모델 업데이트 주기가 길다. 클라우드 모델은 매달 개선되지만, 로컬에서 새 모델을 받으려면 또 한 번 다운로드·테스트·튜닝을 거쳐야 한다.

이런 작업이 주력이라면 로컬 셋업을 보조 도구로 두고 ChatGPT Plus나 Claude API 같은 유료 서비스를 메인으로 두는 게 합리적이다. “보안·프라이버시 우선” 또는 “특정 문서 RAG”, “오프라인 사용”, “API 비용 절감"이 명확한 목적일 때 로컬 LLM이 빛난다.

한 단계 더 — Open WebUI·RAG·MCP

CLI에 익숙해졌다면 다음 단계는 GUI와 도구 연동이다. 이 영역에 들어서면 로컬 LLM이 단순한 챗봇이 아니라 진짜 작업 도구로 변하기 시작한다.

  • Open WebUI: ChatGPT와 거의 똑같은 UI를 로컬에 띄울 수 있다. Docker 한 줄로 설치되며 모델 비교·세션 관리·파일 첨부까지 지원한다.
  • RAG: 내 PDF·노션·문서를 모델에 주입해 검색 기반 응답을 받는 구조. ChromaDB 같은 벡터 DB와 결합해 회사 위키나 개인 노트에 질의할 수 있다.
  • MCP: Anthropic이 표준화한 Model Context Protocol을 통해 로컬 LLM에 외부 도구(파일시스템, 브라우저, DB 등)를 붙일 수 있다.
  • API 노출: Ollama는 기본 localhost:11434에서 OpenAI 호환 API를 제공한다. 기존 LangChain·LlamaIndex 코드에서 base_url만 바꾸면 그대로 동작한다.

자세한 셋업은 Open WebUI 셋업 가이드ChromaDB로 만드는 로컬 RAG에서 따로 다룬다.

핵심 요약

🔑 Key Takeaways

  • M1 16GB는 8B Q4_K_M 모델까지가 안정적인 상한선, 13B 이상은 24GB부터.
  • Ollama는 설치 30분 안에 첫 응답까지 가는 가장 쉬운 진입로다.
  • 양자화는 Q4_K_M, 컨텍스트는 작업 단위에 맞춰 최소화가 정석이다.
  • 발열·속도 문제는 노트북 받침대와 저전력 모드 해제로 해결되는 경우가 많다.
  • GPT-4o·Claude 4의 추론력·멀티모달이 필요할 땐 로컬을 고집하지 말고 병행하자.

자주 묻는 질문

Q. M1 맥북 에어 8GB로도 LLM이 돌아가나요?

3.8B 이하 소형 모델(Phi-3 Mini, Gemma 2B 등) Q4 양자화 기준으로는 동작한다. 다만 OS와 앱이 메모리를 거의 못 쓰는 상태가 되어 멀티태스킹은 사실상 불가능하다. 학습용으로는 충분하지만 실사용 도구로 쓰려면 16GB 이상이 현실적이다.

Q. 한국어 응답 품질이 ChatGPT 같지 않은데 정상인가요?

Llama 3.1 8B는 한국어 학습량이 영어 대비 적기 때문에 자연스러움이 떨어진다. Qwen2.5 시리즈, EEVE Korean, Solar 같은 한국어 특화·강세 모델로 바꾸면 체감 품질이 한 단계 올라간다. 모델만 바꾸고 셋업은 그대로 유지하면 된다.

Q. 배터리만으로 얼마나 쓸 수 있나요?

M1 Pro 16GB 기준으로 8B Q4 모델을 가볍게 굴리면 영상 시청 수준의 배터리 소모(시간당 12~15%)를 보인다. 하지만 추론을 연속으로 돌리면 1시간 안에 30%까지 빠질 수 있다. 외출 시 가벼운 코드 검토 정도가 적정선이고, 장시간 작업은 충전기를 꽂는 게 정석이다.

Q. Ollama 외에 LM Studio·llama.cpp는 어떤 차이가 있나요?

Ollama는 설치·관리가 가장 단순하고 OpenAI 호환 API로 노출하기 쉽다. LM Studio는 GUI 중심이라 코드를 거의 안 짜고 모델을 비교하기 좋다. llama.cpp는 가장 저수준이라 세밀한 튜닝이 가능하지만 진입 장벽이 높다. 처음이라면 Ollama, GUI 선호라면 LM Studio가 정답이다.

마무리

로컬 LLM은 더 이상 ML 엔지니어의 전유물이 아니다. M1 맥북 한 대와 30분의 시간만 있으면 누구나 자기 책상 위에 자기만의 모델을 올릴 수 있다. 다만 클라우드를 완전히 대체하는 도구가 아니라, 보안·비용·실험 측면에서 클라우드와 보완 관계라는 점을 잊지 말자. 처음 한 달은 8B 모델로 가볍게 시작해보고, 부족함을 느끼는 지점이 명확해지면 그때 13B나 클라우드로 확장하는 것이 가장 합리적인 순서다.

관련 글: Open WebUI로 만드는 ChatGPT 로컬 환경 · ChromaDB로 만드는 로컬 RAG 시스템 · M4 맥북 vs M1 맥북, LLM 추론 속도 비교 · MCP로 로컬 LLM에 도구 붙이기

Sources

면책 사항

본 글은 정보 제공 목적이며 특정 금융 상품 매수·매도 또는 투자 판단을 권유하는 것이 아닙니다. 모든 투자에는 원금 손실 위험이 따르며, 최종 결정은 본인의 책임 아래 이뤄져야 합니다. 세무·법률 사항은 관련 전문가와 상담을 권합니다.