이웃삼촌 (222.♡.99.94)
2026년 6월 5일 PM 02:51
https://huggingface.co/nvidia/LocateAnything-3B
전 엔비디아 그래픽카드가 없어서…
뭐가 좋다는 건지 모르갰습니다…
YBman
15:48 · 119.♡.3.58
완전 기깔나는데요!!
아래는 qwen3.6-27b로 요약한 것입니다. hermes agent를 사용했습니다.
---
NVIDIA LocateAnything-3B 분석
이 모델이 뭐예요?
NVIDIA가 2026년 5월에 공개한 30억 파라미터 비전-언어 모델(VLM)입니다. 핵심 기능은 시각적 그라운딩 — 이미지 속 객체를 자연어로 지시하면 정확한 위치(경계 상자)를 찾아내는 일입니다.
예를 들어 "사탕 위에 있는 동물은 뭐야?"라고 물어보면, 답과 함께 이미지에서 해당 객체의 정확한 좌표를 함께 반환합니다.
핵심 혁신: Parallel Box Decoding (PBD)
기존 VLM들이 객체 위치를 찾을 때 좌표 토큰을 하나씩 순차적으로 생성하는 방식이었습니다. 문제가 두 개:
1. 기하학적 일관성 손실 — x1, y1, x2, y2는 서로 연결된 값인데 독립적으로 예측하다 보니 박스 형상이 깨질 수 있음
2. 속도 병목 — 객체가 수십, 수백 개 있을 때 하나씩 만드는 건 느림
LocateAnything은 한 번의 forward pass로 전체 경계 상자를 원자 단위로 예측합니다. 마치 단어 토큰을 한 번에 내뱉는 것처럼 박스를 한 번에 냅니다.
추가로 하이브리드 모드가 기본 — 빠른 병렬 모드로 돌아가다가 형식이 깨지거나 객체가 빽빽한 경우에만 자동적으로 느린 모드(autoregressive)로 해당 박스만 다시解码합니다.
성능 수치
속도 (H100 기준):
- LocateAnything: 초당 12.7개 박스
- Qwen3-VL보다 10배 빠름 (1.1 → 12.7)
- Rex-Omni보다 2.5배 빠름 (5.0 → 12.7)
정확도 (Rex-Omni 동일 크기 대비):
- LVIS: +3.8% (IoU=0.95 고난이도에서는 20.7 → 31.1, +10.4)
- COCO: +1.8%
- VisDrone: 35.8 → 39.9
- GUI 그라운딩 (ScreenSpot-Pro): 60.3 — Qwen3-VL-30B, GUI-Owl-32B보다도 높음
- 문서 레이아웃 (DocLayNet): Rex-Omni 대비 +6.1
- OCR (TotalText): 비교 대상 전 모델 압도
아키텍처
- 비전 인코더: MoonViT-SO-400M
- 언어 모델: Qwen2.5-3B-Instruct
- 연결부: MLP 프로젝터
- 입력: 최대 2.5K 해상도 RGB 이미지 + 24K 토큰 텍스트
- 학습 데이터: 12M 이미지, 138M 쿼리, 785M 경계 상자
지원 작업 (5가지)
1. 객체 탐지 — "사과, 바나나, 포도 찾아줘"
2. 구문 그라운딩 — "손에 공을 들고 있는 사람 찾아줘"
3. OCR — 이미지 속 텍스트 위치 찾기
4. 포인트 지정 — 특정 지점 가리키기
5. GUI 그라운딩 — 화면 속 버튼, 입력창 등 UI 요소 찾기
로컬 실행
RTX 4060 8GB에서도 4비트 양자화(NF4)로 실행 가능 (VRAM 약 3.5GB). GGUF 포맷은 없으므로 transformers + bitsandbytes 조합으로 돌립니다. vLLM, SGLang에서도 서빙 가능.
라이선스 주의
비상업용 전용 — 학술·비영리 연구만 가능. 상업적 사용 불가.
새로운 시각
이 모델의 진짜 의미는 "YOLO를 대체한다"는 헤드라인보다 더 깊습니다:
- AI 에이전트의 눈 — GUI 에이전트가 화면을 보고 클릭하려면 먼저 "버튼이 어디에 있는가"를 알아야 합니다. LocateAnything은 그基础设施입니다
- 로봇/자율주행 — 실시간 객체 탐지 + 자연어 이해를 하나로 합쳐서 "앞에 있는 빨간 신호등 찾아줘"처럼 유연하게 지시 가능
- 자동 라벨링 — 785M 박스로 학습한 모델로 새로운 데이터셋의 라벨을 자동으로 생성하는 데 쓸 수 있음 (데이터 파이프라인 구축에 유용)
자녀/미래 적용
- AI 에이전트가 컴퓨터 화면을 보고 작업을 수행하는 시대가 오면, 이 모델이 "눈" 역할을 합니다. 아이들이 자랄 때 AI가 GUI를 이해하고 상호작용하는 건 일상화될 것
- 의료 영상에서 "종양 의심 부위 찾아줘" 같은 자연어 기반 위치 탐지에도 확장 가능 (비상업 라이선스이므로 연구용으로는 활용 가능)
wiki에 저장할까요, 아니면 다른 점이 궁금하신가요?
댓글을 작성하려면 로그인 이 필요합니다.
완전 기깔나는데요!!
아래는 qwen3.6-27b로 요약한 것입니다. hermes agent를 사용했습니다.
---
NVIDIA LocateAnything-3B 분석
이 모델이 뭐예요?
NVIDIA가 2026년 5월에 공개한 30억 파라미터 비전-언어 모델(VLM)입니다. 핵심 기능은 시각적 그라운딩 — 이미지 속 객체를 자연어로 지시하면 정확한 위치(경계 상자)를 찾아내는 일입니다.
예를 들어 "사탕 위에 있는 동물은 뭐야?"라고 물어보면, 답과 함께 이미지에서 해당 객체의 정확한 좌표를 함께 반환합니다.
핵심 혁신: Parallel Box Decoding (PBD)
기존 VLM들이 객체 위치를 찾을 때 좌표 토큰을 하나씩 순차적으로 생성하는 방식이었습니다. 문제가 두 개:
1. 기하학적 일관성 손실 — x1, y1, x2, y2는 서로 연결된 값인데 독립적으로 예측하다 보니 박스 형상이 깨질 수 있음
2. 속도 병목 — 객체가 수십, 수백 개 있을 때 하나씩 만드는 건 느림
LocateAnything은 한 번의 forward pass로 전체 경계 상자를 원자 단위로 예측합니다. 마치 단어 토큰을 한 번에 내뱉는 것처럼 박스를 한 번에 냅니다.
추가로 하이브리드 모드가 기본 — 빠른 병렬 모드로 돌아가다가 형식이 깨지거나 객체가 빽빽한 경우에만 자동적으로 느린 모드(autoregressive)로 해당 박스만 다시解码합니다.
성능 수치
속도 (H100 기준):
- LocateAnything: 초당 12.7개 박스
- Qwen3-VL보다 10배 빠름 (1.1 → 12.7)
- Rex-Omni보다 2.5배 빠름 (5.0 → 12.7)
정확도 (Rex-Omni 동일 크기 대비):
- LVIS: +3.8% (IoU=0.95 고난이도에서는 20.7 → 31.1, +10.4)
- COCO: +1.8%
- VisDrone: 35.8 → 39.9
- GUI 그라운딩 (ScreenSpot-Pro): 60.3 — Qwen3-VL-30B, GUI-Owl-32B보다도 높음
- 문서 레이아웃 (DocLayNet): Rex-Omni 대비 +6.1
- OCR (TotalText): 비교 대상 전 모델 압도
아키텍처
- 비전 인코더: MoonViT-SO-400M
- 언어 모델: Qwen2.5-3B-Instruct
- 연결부: MLP 프로젝터
- 입력: 최대 2.5K 해상도 RGB 이미지 + 24K 토큰 텍스트
- 학습 데이터: 12M 이미지, 138M 쿼리, 785M 경계 상자
지원 작업 (5가지)
1. 객체 탐지 — "사과, 바나나, 포도 찾아줘"
2. 구문 그라운딩 — "손에 공을 들고 있는 사람 찾아줘"
3. OCR — 이미지 속 텍스트 위치 찾기
4. 포인트 지정 — 특정 지점 가리키기
5. GUI 그라운딩 — 화면 속 버튼, 입력창 등 UI 요소 찾기
로컬 실행
RTX 4060 8GB에서도 4비트 양자화(NF4)로 실행 가능 (VRAM 약 3.5GB). GGUF 포맷은 없으므로 transformers + bitsandbytes 조합으로 돌립니다. vLLM, SGLang에서도 서빙 가능.
라이선스 주의
비상업용 전용 — 학술·비영리 연구만 가능. 상업적 사용 불가.
새로운 시각
이 모델의 진짜 의미는 "YOLO를 대체한다"는 헤드라인보다 더 깊습니다:
- AI 에이전트의 눈 — GUI 에이전트가 화면을 보고 클릭하려면 먼저 "버튼이 어디에 있는가"를 알아야 합니다. LocateAnything은 그基础设施입니다
- 로봇/자율주행 — 실시간 객체 탐지 + 자연어 이해를 하나로 합쳐서 "앞에 있는 빨간 신호등 찾아줘"처럼 유연하게 지시 가능
- 자동 라벨링 — 785M 박스로 학습한 모델로 새로운 데이터셋의 라벨을 자동으로 생성하는 데 쓸 수 있음 (데이터 파이프라인 구축에 유용)
자녀/미래 적용
- AI 에이전트가 컴퓨터 화면을 보고 작업을 수행하는 시대가 오면, 이 모델이 "눈" 역할을 합니다. 아이들이 자랄 때 AI가 GUI를 이해하고 상호작용하는 건 일상화될 것
- 의료 영상에서 "종양 의심 부위 찾아줘" 같은 자연어 기반 위치 탐지에도 확장 가능 (비상업 라이선스이므로 연구용으로는 활용 가능)
---
wiki에 저장할까요, 아니면 다른 점이 궁금하신가요?