설치 없이, 인터넷 없이, USB 꽂으면 AI가 대답한다

"AI를 쓰려면 ChatGPT에 접속해야지."

대부분의 사람들은 아직 AI를 클라우드 서비스로만 생각합니다. 매달 구독료를 내고, 인터넷에 연결해야 하고, 내 데이터가 서버로 올라가는 구조. 그런데 만약 USB 하나만 꽂으면 내 컴퓨터에서 바로 AI가 동작한다면요?

오늘 소개할 LG EXAONE 3.5 2.4B와 Mozilla의 llamafile이 바로 그 조합입니다. MONKOS AI에서 직접 테스트한 실전 후기를 공유합니다.


EXAONE 3.5 — LG AI Research의 한국어 특화 소형 모델

LG AI Research가 개발한 EXAONE(Expert AI for everyONE) 3.5는 2.4B(24억) 파라미터의 소형 언어 모델입니다. "소형"이라는 단어에 속으면 안 됩니다. 한국어 성능은 동급 최강입니다.

벤치마크 비교 (2.4~3B급)

벤치마크 EXAONE 3.5 2.4B Qwen 2.5 3B Gemma 2 2B Llama 3.2 3B
KoMT-Bench 7.24 5.68 4.83 3.16
LogicKor 8.51 5.21 5.29 2.86
KMMLU 45.8 41.7 37.4 35.0
Ko-LongRAG 74.7 40.5 N/A 39.3

KoMT 벤치마크에서 2위와 27% 격차, LogicKor에서는 63% 차이. 한국어 질의에 대한 이해도와 응답 품질이 압도적으로 높습니다. 특히 Ko-LongRAG(장문 문서 기반 QA)에서 74.7점은 긴 문서를 읽고 정확하게 답하는 능력이 탁월하다는 의미입니다.


llamafile — 더블클릭 한 번이면 끝

Mozilla에서 개발한 llamafile은 LLM 추론 엔진을 단일 실행파일로 패키징하는 프로젝트입니다.

  • 설치 불필요 — .exe(Windows) 또는 바이너리(Mac/Linux) 하나
  • 크로스플랫폼 — 같은 파일이 Windows, macOS, Linux에서 동작
  • 웹 UI 내장 — 실행하면 브라우저에서 바로 채팅 가능
  • CPU만으로 동작 — GPU 없어도 됨 (있으면 더 빠름)

llamafile(721MB) + EXAONE GGUF 모델(1.64GB) = 총 2.3GB. USB 하나에 충분히 담기는 크기입니다.


실전 테스트 — 사업 제안서를 통째로 주입하고 질문했다

단순한 "안녕하세요" 테스트가 아닙니다. MONKOS AI에서 실제로 진행한 테스트입니다.

테스트 환경

  • 모델: EXAONE-3.5-2.4B-Instruct-Q4_K_M
  • 엔진: llamafile v0.10.0
  • 하드웨어: Intel i5, 8GB RAM (일반 사무용 PC 수준)
  • 입력: 시스템 프롬프트에 사업 개요 + 기술 스택 + 재무 데이터 약 10,000 토큰 주입

실제 질의응답 결과

Q: "이 과제의 핵심 기술이 뭡니까?" → 3단계 파이프라인(실시간 코칭 → AI 생성 → 품질 검증)을 정확하게 설명. 제안서에 기술된 내용을 자기 언어로 재구성하여 답변.

Q: "GPU가 왜 필요한 겁니까?" → Imagen 모델의 실시간 생성 요구사항, 배치 처리 vs 실시간 추론의 차이를 설명. 기술적 맥락을 이해한 응답.

Q: "사업화 전략이 구체적으로 뭡니까?" → 3개국어 서비스 구조, 크레딧 과금 모델, B2B 확장 전략까지 제안서 맥락에 맞는 답변.

총 8건의 질의에서 환각(hallucination) 0건. 제안서에 없는 내용을 지어내지 않았고, 모르는 것은 모른다고 답했습니다. 2.4B라는 작은 모델이 이 정도 품질이라면 충분히 실무에 활용 가능합니다.

응답 속도

  • 모델 로딩: 약 8초
  • 첫 토큰(TTFT): 3~5초
  • 생성 속도: 약 10 tok/s
  • 한 문장 완성: 3~5초

ChatGPT처럼 즉시 응답하진 않지만, 오프라인에서 이 정도면 실용적입니다.


ChatGPT·Gemini와 뭐가 다른가

항목 클라우드 AI (ChatGPT 등) 온디바이스 AI (EXAONE)
인터넷 필요 ✅ 필수 ❌ 불필요
데이터 전송 서버로 전송 내 PC에서만 처리
비용 월 $20~200 무료
성능 매우 높음 한국어 특화 (동급 최강)
설치 계정 생성 필요 USB 꽂고 더블클릭

핵심 차이는 보안과 비용입니다. 사업 제안서, 재무 데이터, 인사 정보 같은 민감한 문서를 클라우드에 올리는 건 리스크가 있습니다. 온디바이스 AI는 데이터가 내 컴퓨터를 떠나지 않습니다.


어디에 쓸 수 있을까

  1. 소상공인 현장 — PT나 미팅에서 USB 꽂고 바로 AI 데모. Wi-Fi 없는 환경에서도 동작.
  2. 교육 현장 — 학교·학원에서 인터넷 차단 환경에서도 AI 수업 가능.
  3. 보안 민감 환경 — 군사, 금융, 의료 등 외부 네트워크 차단 환경에서 AI 활용.
  4. 비용 민감 환경 — 구독료 없이 무제한 AI 활용. 소규모 팀에 적합.

결론 — 2GB USB가 비서가 되는 시대

LG EXAONE 3.5 + llamafile 조합은 "AI는 클라우드에만 있다"는 고정관념을 깨뜨립니다.

  • 2.3GB USB 하나에 한국어 최강 AI가 담깁니다
  • 설치 제로, 더블클릭으로 시작
  • 인터넷 제로, 완전 오프라인 동작
  • 비용 제로, 무료 영구 사용

"나만의 AI 비서"가 주머니 속 USB에 있는 시대. 이미 기술적으로 가능합니다.

MONKOS AI는 20년 경력 사진작가가 만든 AI 증명사진 플랫폼입니다. AI 기술을 실제 서비스에 적용하는 과정을 블로그에서 공유하고 있습니다.