YBman (119.♡.3.58)
2026년 6월 4일 PM 01:28
제 로컬 llm qwen으로 요약정리 한 것입니다. 해커뉴스 기반으로 요약하고 있어서 댓글 반응도 함께 보려 하고 있습니다.
이제 분석을 진행하겠습니다.
---
Gemma 4 12B: Google의 인코더프리 멀티모달 모델
1. 내용 분석 및 요약
기본 정보
- Google이 2026년 6월 3일 공개한 Gemma 4 12B — 밀도형 12B 파라미터 멀티모달 모델
- 핵심: 인코더프리 아키텍처 — 기존 멀티모달 모델이 별도로 훈련시킨 비전 인코더(ViT)와 오디오 인코더(Conformer)를 완전히 제거
- 텍스트, 이미지, 오디오, 비디오를 단일 디코더-온리 트랜스포머로 처리
아키텍처 핵심
- 기존 Gemma 4 미디엄 모델이 사용한 27층 비전 트랜스포머(550M 파라미터)를 35M 파라미터의 단일 행렬 곱으로 대체
- 이미지: 48x48 픽셀 패치를 직접 LLM 히든 차원으로 단일 matmul로 투영 + 좌표 룩업 테이블로 위치 정보 추가
- 오디오: 별도 인코더(12층 Conformer, 300M) 제거. 16kHz 원시 오디오를 40ms 프레임(640 floats)으로 잘라 직접 선형 투영
- 즉 "인코더프리"란 인코더 네트워크가 없다는 뜻 — 선형 프로젝션은 여전히 일종의 인코딩이지만, 전용 신경망이 없다는 게 핵심
주요 성과
- LiveCode Bench: 72%
- MTP(Multi-Token Prediction) 지원 — 로컬 추론 속도 향상
- 16GB VRAM/유니ified 메모리에서 실행 가능
- macOS 데스크톱 앱, Android 앱 동시 출시
HN 토론 핵심 포인트
실제 벤치마크:
- senko가 Q4 양자화(4-bit GGUF)를 12GB VRAM RTX 3060에서 실행 — 5t/s 출력
- "마인스위퍼 vibe-coding 벤치마크"에서 GPT-4.1(14개월 전 출시)과 유사한 결과
- 몇 가지 문법 오류 (추가 닫는 괄호, 함수 정의 사이에 쉼표) — 코딩 전용 훈련이 아니었기 때문이라는 의견
모델 비교:
- 16GB 노트북: Qwen 3.5 9B가 여전히 코딩 챔피언
- Gemma 4 31B가 소규모 모델 중 코딩 최상위이지만 dense이므로 ~48GB RAM 필요
- Qwen 3.6 35B-A3B MoE가 MTP와 함께 50-60t/s로 가장 빠름
- Gemma 4는 "더 광범위한 지식" 보유, Qwen은 코딩/툴 호출에서 우위
아키텍처 논쟁:
- "인코더프리"가 정말 새로운가? FAIR의 Chameleon(2024년 5월)이 이미 early fusion을 구현했음
- 차이점: Chameleon은 더 복잡한 퓨전 방식을 썼지만, Gemma는 단순 matmul로 더 빠름
- 일부는 "이것은 인코딩이다. 단지 전용 모델이 없을 뿐"이라고 지적 — pedantic하지만 기술적으로 맞음
토근화 논쟁:
- 한 사용자가 "토크ンは 현실과 맞지 않는 쪼개진 단위"라고 주장 — "생각은 언어로 이루어지지 않는다"
- 반박: "토큰은 언어와 별개. 시계열 데이터는 모두 토큰화 가능. 토큰을 글자로 생각하는 게 오해"
- 또 다른 관점: "토큰과 임베딩 벡터 사이에 더 나은 중간 표현이 있을 것"이라는 데 동의는 하지만, 구체적 대안 제시 불가
Edge Gallery:
- 시스템 프롬프트 지원 추가 — 이제 실제 개발 도구로 사용 가능
- 16GB MacBook Pro에서 Gemma 4 12B는 메모리 부족 에러 발생 → "16GB 마케팅"에 대한 의문 제기
- MTP가 실제로 작동하며 속도가 빠름
RTX Spark 논쟁:
- NVIDIA/MS의 RTX Spark(128GB CUDIMM)가 로컬 AI에 유용할 것이라는 의견 vs
- 메모리 대역폭이 너무 느려(300GB/s 추정) 실제 사용 불가 — 30GB 모델 기준 ~10t/s
- Strix Halo 사용자实测: 대용량 모델은 배치 처리조차 하루 이상 걸려 사용 불가
2. 커뮤니티 반응
HN에서 746포인트, 301댓글 — 상당한 관심. 핵심 논점:
1. "12B가 GPT-4.1 수준?" — 벤치마크는 특정 작업에 한정됨. 일반 지식에서는 GPT-4.1이 여전히 우위일 가능성 높음
2. 인코더프리 = 게임체인저인가 — 일부는 "FAIR가 2년 전부터 했음", 다른 쪽은 "단순 matmul로 이 정도로 빠지는 게 놀라움"
3. 로컬 AI의 실제 사용성 — VRAM 대역폭이 병목. RTX Spark는 이론상 128GB지만 대역폭이 너무 느림
4. Qwen vs Gemma — 코딩은 Qwen, 일반 지식/다국어는 Gemma 경향
5. r/localllama 비판 — "아스트로터프(인위적 여론 조작)이 심한 곳"이라는 지적
3. 새로운 시각
인코더프리 아키텍처의 진짜 의미:
- 단순히 "빠르다"는 게 아니라, 미세 조정 시 모든 모달리티가 단일 패스로 업데이트된다는 점이 핵심. 기존 방식은 동결된 인코더 + 어댑터 튜닝의 2단계 프로세스였음
- LoRA나 풀 튜닝 시 비전/오디오/텍스트가 같은 가중치를 공유하므로, 한 모달리티의 학습이 다른 모달리티에도 자연히 전이됨
12B의 "충분한 지능" 시점:
- 1년 전 GPT-4.1은 "매우 강력한 코딩 모델"으로 평가받았는데, 12B 모델이 특정 벤치마크에서 비슷한 결과를 냄
- 이것은 모델 크기가 아니라 리저닝 + MTP의 조합이 코딩 성능의 주요 드라이버였음을 시사
로컬 AI의 실제 병목:
- 파라미터 수가 아닌 메모리 대역폭이 토큰/초를 결정. 128GB CUDIMM이 느린 이유
- 로컬 AI의 진짜 사용 사례는 대화형이 아닌 배치 처리일 가능성 높음 — 하지만 배치도 "하룻밤" 수준이어야 실용적
다국어 강점:
- Gemma 4가 번역/다국어에서 강하다는 의견 — 히브리어, 그리스어 등 소수 언어 사용자도 긍정적 피드백
4. 자녀/미래 영향
실용적 관점:
- 12GB VRAM GPU(예: RTX 3060)에서도 실행 가능하지만 5t/s는 대화형 코딩에는 느림
- 16GB MacBook Pro는 12B조차 실행 불가 → Apple의 "16GB足够" 마케팅에 주의
- 로컬 AI의 프라이버시 이점은 명확하지만, 클라우드와 가격 경쟁에서 아직 뒤처짐
교육적 시사점:
- 멀티모달 모델의 내부 구조가 단순해지고 있음 — 아이들이 "AI는 이미지와 소리를 어떻게 이해하나"를 이해하기 쉬워짐
- 인코더프리 아키텍처는 "전용 부품 없이 하나로 통합"이라는 직관적 개념으로 설명 가능
직업적 영향:
- 1년 전 "매우 강력"했던 GPT-4.1 코딩 능력이 12B 로컬 모델로 대체 가능해짐
- 하지만 "코딩 전용 훈련"과 "범용 훈련"의 차이 여전히 중요 — Gemma 4 12B는 코딩 전용이 아님
- 로컬 AI의 진짜 차별점은 프라이버시 — 개인 노트, 의료 기록, 가족 데이터 처리에 의미 있음
5. wiki 저장
이 내용을 wiki에 저장할지 확인하겠습니다.
댓글 (14)
-
알알아야면장
06.04 · 49.♡.134.96
-
YYBman
→ 알아야면장 작성자
06.04 · 218.♡.152.147
오우. 실행력 엄청나시군요.. 후기 부탁드립니다. 저는 qwen3.6-27b와 qwen3.5-9b를 가지고 있고 주로 27b를 스는데 vram이 필요한데 llm도 필요하다 싶을 때는 9b로 바꿔서 쓰고 있습니다. 9b도 27b의 1/3이라고 무시했었는데 답변하는걸 보니 무시할 수준이 아니더라구요. 속도가 빨라서 (거의 80-100tps) 처음에는 뭐가 고장났나 싶었습니다.
-
알알아야면장
→ YBman
06.04 · 49.♡.101.52
저도 제 MBP M5PRO 24GB가 27B를 돌리기엔 택도 없어서 9B를 메인으로 잡고 Gemma4 26B-MOE를 섞어 쓰는 중입니다. 항상 체급차이에 대한 고민이 있었는데 12B면 어느 정도일지 궁금하네요
-
지지나가던행인이
06.04 · 61.♡.201.240
해커뉴스에 나올 정도면 온 동네 소문 다 내고 나온거 아닌가요? ㅋㅋㅋ
-
YYBman
→ 지나가던행인이 작성자
06.04 · 218.♡.152.147
ai당에 안 나왔으니 소리소문 없었던게 맞을 것 같습니다.
-
남남극백곰
06.04 · 114.♡.188.135
gemma4 좋은가요???? 전 너무 굼뜬거 같아서...yo
-
TTAMPA
06.04 · 143.♡.84.213
전 로컬 모델은 주로 회사문서작업관련 쓰는중입니다.
그런데 확실히 놋북램이 36기가바이트라도 띄어놓는 앱들/창들이 많아서인지 작은모델이 좋더군요.
12b라서 딱 좋아보이네요.ㅋ
-
EEcridor
06:34 · 91.♡.196.218
16GB 맥북프로인데 메모리 부족이라고 모델 다운로드가 안 됩니다.
-
Bboolsee
10:26 · 211.♡.80.125
Gemm4가 기존 e2b, e4b, 27b, 31b 모델만 있었는데 이번에 나온 12b 모델은 아예 통합 램을 가진 노트북에서도 실행 가능할 정도로 가볍게 만든 것이 특징입니다. 기존 27b (Dense), 31b (A3B)는 8GB VRAM에서도 20% GPU 정도로 실행은 가능하지만 꽤 버거웠는데 이번에 나온 12B는 MTP도 지원하고 더 작은 VRAM에서도 더 빠르게 동작할 것 같습니다.
-
CCaTo
10:44 · 112.♡.38.222
좀 써봤는데, 영 아닌거 같습니다.
음성 변환도 엉망이고, 속도도 영…-.-;
댓글을 작성하려면 이 필요합니다.
오마이!!! 바로 LM studio에 다운중입니다.