설치 없이, 인터넷 없이, USB 꽂으면 AI가 대답한다
"AI를 쓰려면 ChatGPT에 접속해야지."
대부분의 사람들은 아직 AI를 클라우드 서비스로만 생각합니다. 매달 구독료를 내고, 인터넷에 연결해야 하고, 내 데이터가 서버로 올라가는 구조. 그런데 만약 USB 하나만 꽂으면 내 컴퓨터에서 바로 AI가 동작한다면요?
오늘 소개할 LG EXAONE 3.5 2.4B와 Mozilla의 llamafile이 바로 그 조합입니다. MONKOS AI에서 직접 테스트한 실전 후기를 공유합니다.
EXAONE 3.5 — LG AI Research의 한국어 특화 소형 모델
LG AI Research가 개발한 EXAONE(Expert AI for everyONE) 3.5는 2.4B(24억) 파라미터의 소형 언어 모델입니다. "소형"이라는 단어에 속으면 안 됩니다. 한국어 성능은 동급 최강입니다.
벤치마크 비교 (2.4~3B급)
| 벤치마크 | EXAONE 3.5 2.4B | Qwen 2.5 3B | Gemma 2 2B | Llama 3.2 3B |
|---|---|---|---|---|
| KoMT-Bench | 7.24 | 5.68 | 4.83 | 3.16 |
| LogicKor | 8.51 | 5.21 | 5.29 | 2.86 |
| KMMLU | 45.8 | 41.7 | 37.4 | 35.0 |
| Ko-LongRAG | 74.7 | 40.5 | N/A | 39.3 |
KoMT 벤치마크에서 2위와 27% 격차, LogicKor에서는 63% 차이. 한국어 질의에 대한 이해도와 응답 품질이 압도적으로 높습니다. 특히 Ko-LongRAG(장문 문서 기반 QA)에서 74.7점은 긴 문서를 읽고 정확하게 답하는 능력이 탁월하다는 의미입니다.
llamafile — 더블클릭 한 번이면 끝
Mozilla에서 개발한 llamafile은 LLM 추론 엔진을 단일 실행파일로 패키징하는 프로젝트입니다.
- 설치 불필요 — .exe(Windows) 또는 바이너리(Mac/Linux) 하나
- 크로스플랫폼 — 같은 파일이 Windows, macOS, Linux에서 동작
- 웹 UI 내장 — 실행하면 브라우저에서 바로 채팅 가능
- CPU만으로 동작 — GPU 없어도 됨 (있으면 더 빠름)
llamafile(721MB) + EXAONE GGUF 모델(1.64GB) = 총 2.3GB. USB 하나에 충분히 담기는 크기입니다.
실전 테스트 — 사업 제안서를 통째로 주입하고 질문했다
단순한 "안녕하세요" 테스트가 아닙니다. MONKOS AI에서 실제로 진행한 테스트입니다.
테스트 환경
- 모델: EXAONE-3.5-2.4B-Instruct-Q4_K_M
- 엔진: llamafile v0.10.0
- 하드웨어: Intel i5, 8GB RAM (일반 사무용 PC 수준)
- 입력: 시스템 프롬프트에 사업 개요 + 기술 스택 + 재무 데이터 약 10,000 토큰 주입
실제 질의응답 결과
Q: "이 과제의 핵심 기술이 뭡니까?" → 3단계 파이프라인(실시간 코칭 → AI 생성 → 품질 검증)을 정확하게 설명. 제안서에 기술된 내용을 자기 언어로 재구성하여 답변.
Q: "GPU가 왜 필요한 겁니까?" → Imagen 모델의 실시간 생성 요구사항, 배치 처리 vs 실시간 추론의 차이를 설명. 기술적 맥락을 이해한 응답.
Q: "사업화 전략이 구체적으로 뭡니까?" → 3개국어 서비스 구조, 크레딧 과금 모델, B2B 확장 전략까지 제안서 맥락에 맞는 답변.
총 8건의 질의에서 환각(hallucination) 0건. 제안서에 없는 내용을 지어내지 않았고, 모르는 것은 모른다고 답했습니다. 2.4B라는 작은 모델이 이 정도 품질이라면 충분히 실무에 활용 가능합니다.
응답 속도
- 모델 로딩: 약 8초
- 첫 토큰(TTFT): 3~5초
- 생성 속도: 약 10 tok/s
- 한 문장 완성: 3~5초
ChatGPT처럼 즉시 응답하진 않지만, 오프라인에서 이 정도면 실용적입니다.
ChatGPT·Gemini와 뭐가 다른가
| 항목 | 클라우드 AI (ChatGPT 등) | 온디바이스 AI (EXAONE) |
|---|---|---|
| 인터넷 필요 | ✅ 필수 | ❌ 불필요 |
| 데이터 전송 | 서버로 전송 | 내 PC에서만 처리 |
| 비용 | 월 $20~200 | 무료 |
| 성능 | 매우 높음 | 한국어 특화 (동급 최강) |
| 설치 | 계정 생성 필요 | USB 꽂고 더블클릭 |
핵심 차이는 보안과 비용입니다. 사업 제안서, 재무 데이터, 인사 정보 같은 민감한 문서를 클라우드에 올리는 건 리스크가 있습니다. 온디바이스 AI는 데이터가 내 컴퓨터를 떠나지 않습니다.
어디에 쓸 수 있을까
- 소상공인 현장 — PT나 미팅에서 USB 꽂고 바로 AI 데모. Wi-Fi 없는 환경에서도 동작.
- 교육 현장 — 학교·학원에서 인터넷 차단 환경에서도 AI 수업 가능.
- 보안 민감 환경 — 군사, 금융, 의료 등 외부 네트워크 차단 환경에서 AI 활용.
- 비용 민감 환경 — 구독료 없이 무제한 AI 활용. 소규모 팀에 적합.
결론 — 2GB USB가 비서가 되는 시대
LG EXAONE 3.5 + llamafile 조합은 "AI는 클라우드에만 있다"는 고정관념을 깨뜨립니다.
- 2.3GB USB 하나에 한국어 최강 AI가 담깁니다
- 설치 제로, 더블클릭으로 시작
- 인터넷 제로, 완전 오프라인 동작
- 비용 제로, 무료 영구 사용
"나만의 AI 비서"가 주머니 속 USB에 있는 시대. 이미 기술적으로 가능합니다.
MONKOS AI는 20년 경력 사진작가가 만든 AI 증명사진 플랫폼입니다. AI 기술을 실제 서비스에 적용하는 과정을 블로그에서 공유하고 있습니다.