요즘 Hermes로 간단하 게임 만들면서 느낀 로컬 LLM의 성능.

잡담

동독도 (198.♡.207.102)

2026년 6월 2일 AM 10:51

조회 1,255 공감 0

요즘 Hermes로 간단한 게임을 만들고 있어요.

그냥 게임하며 노는거 대신 게임을 만들면서 놀고 있는거죠.

Hermes에 상용 LLM을 물려서 Godot engine을 이용해서 만들고 있는데요.

싸게 싸게 LLM을 쓰다 보니, 멀티모달 즉 vision 기능이 없는 녀석이 주력입니다.

그래서 멀티모달 기능이 있는 Gemma4-26B-A4B를 Hermes에 연결해서

조금 써봤는데요. 좀 실망했습니다.

그전에 작은 일 시킬때는 그리 똑똑하던 녀석이, 좀 파일 종류 많아지고 규모가 커지니까

바로 어리버리해지더니 해결하라고 시킨일을 더 오류를 만들어 내기만 하는 겁니다.

큰일 시켜보기전엔 몰랐어요. 30B 근처 모델의 한계를.

그 뒤론 로컬 LLM 에 대한 열기가 팍 식었습니다.

하긴 1T 급의 모델을 쓰다가, 26B 모델을 써보니 마음에 안드는게 당연하겠지만,

체급 차이라는게 어쩔수 없나 봅니다.

남

남극백곰

06.02 · 222.♡.246.138

그래서 설계는 클로드같은 초대형에게 맏기고 30정도 되는 로컬모델은 설계를 엄청 쪼개서 모듈식으로 만든 다음 전체적으로 다시 리뷰를 클로드나 GPT 이런거에 보여줘야 함미다 파라미터가 작아도 코딩은 하지만 설계는 그 회사가 가지고 있는 DB의 설계자료들을 통해 추론을 해서 설계해 준다고 함미다 로컬 모델은 설계하기엔 부족하죠
지

지나가던행인이

06.02 · 61.♡.201.240

저도 gemento 프로젝트 때문에 ollama cloud 결제했는데(로컬로 하니 다른 일을 아무것도 못합니다 ㅠㅠ) 다 하고 나니 그냥 예능용으로 쓸 예정입니다 ㅎㅎ
B

boolsee

06.02 · 211.♡.80.125

코딩용 모델로 변경해서 사용해 보시면 어떨까요? 범용 모델은 이것 저건 잘 할 수는 있는데 코딩은 또 다른 영역이라서요.
동

동독도 → boolsee 작성자

06.02 · 198.♡.207.102

코딩용으로 쓸까 하고 코딩용 서브에이전트로 연결해 봤는데요, 이게 또 쉽지가 않습니다. 메인 LLM이 코딩용 서브에이전트에게 한번에 넘겨버리는 토큰이 너무 커서(최소 1M 토큰을 한번의 호출에 넘겨버리네요.) 로컬 LLM이 감당을 못하더라구요.
풀

풀빵7x

06.02 · 124.♡.237.194

gemma 쓰지 마시고 qwen 으로 바꿔 보세요. 제미나이가 쓰지말라고 했었는데 제가 우겨서 쓰다가 qwen 으로 옴기니 도구사용을 잘합니다.
Y

YBman → 풀빵7x

06.02 · 218.♡.152.147

저도 여기에 한 표입니다. Qwen진짜 무시무시합니다. 젬마는 말은 잘하는.... 그런 느김이라면 qwen은 약간 나사빠진 은둔형 천재 같은 느낌입니다. 가만히 있으면 젬마보다 못해보이는데 일시켜보면 엄청 잘합니다. 놀랄 정도로 잘하는데 가끔은 놀랄 정도로 잠깐씩 바보되는 느낌.
앙

앙겔군

06.02 · 211.♡.195.85

저는 Qwen3.6-31b를 메인으로 쓰고
gemma4-26b-a4b-it에 assistant를 추가로 붙였는데 꽤 똑똑하던데요? MTP적용해서 Pro 6000에서 300TPS도 나오고 꽤나똑똑합니다

댓글을 작성하려면 이 필요합니다.

AI당

추가 메뉴

댓글 (7)