Nemotron-3 Nano Omni × BibiGPT
NVIDIA가 2026-04-28에 Nemotron-3 Nano Omni 출시 — 30B-A3B Mamba-Transformer MoE 멀티모달 모델, 토큰당 약 3B 활성 파라미터로 이미지, 영상, 오디오, 텍스트를 통합 처리. Hugging Face Day-0 공개, NVIDIA Open Model Agreement에 따라 완전한 상업적 이용 가능. BibiGPT는 긴 영상 이해, 장문맥 오디오 Q&A, 문서 인텔리전스를 Nemotron급 멀티모달 백본으로 라우팅하여 크리에이터와 엔터프라이즈 워크플로를 지원합니다.
핵심 사실(90초 읽기)
NVIDIA가 2026-04-28에 Nemotron-3 Nano Omni 출시 — 30B-A3B Mamba2-Transformer MoE 멀티모달 모델, 토큰당 ~3B 활성으로 이미지·영상·오디오·텍스트를 통합 처리. Hugging Face Day-0, NVIDIA Open Model Agreement에 따라 완전 상업 이용, OpenRouter와 build.nvidia.com NIM에도 동시 제공. MMlongbench-Doc, OCRBenchV2, WorldSense, DailyOmni 클래스 최고, 멀티모달 처리량 동급 대비 최대 9배. BibiGPT 사용자에게는 긴 영상·팟캐스트·문서 Q&A를 라우팅하는 멀티모달 백본의 형태.
Features
Nemotron-3 Nano Omni란?
NVIDIA가 2026-04-28에 출시한 Nemotron 3 Nano 패밀리의 멀티모달 플래그십 — 30B 파라미터 Mamba2-Transformer 하이브리드 MoE 백본, 128 전문가, top-6 라우팅, 토큰당 약 3B 활성. 한 모델로 이미지·영상·오디오·텍스트 이해를 통합, Hugging Face에서 Day-0 사용 가능.
30B-A3B MoE 멀티모달 백본
총 31B 파라미터, 128 전문가 top-6 MoE 라우팅으로 토큰당 ~3B 활성. 23개 Mamba 선택적 상태공간 레이어(장문맥 효율) + 23개 MoE 레이어 + 6개 GQA 주의 레이어 — 장문맥 멀티모달 지능을 3B 활성 추론 비용으로.
이미지·영상·오디오·텍스트를 한 모델에
CRADIO v4-H가 이미지·영상 프레임용 비전 인코더, Parakeet이 오디오 입력용 음성 인코더. 한 모델이 문서 Q&A, 요약, 전사, 영상 추론을 처리 — 모달리티별 별도 스택 불필요.
Hugging Face Day-0, 상업 친화적
NVIDIA Open Model Agreement에 따라 출시, 완전한 상업적 이용 권리 보유. BF16, FP8, NVFP4 변형 모두 첫날 Hugging Face에 공개(OpenRouter와 build.nvidia.com NIM도) — 로컬 및 서버리스 배포가 직접적.
BibiGPT 사용자에게 의미
BibiGPT는 크리에이터와 기업을 위한 AI 오디오/영상 어시스턴트 — 긴 영상 요약, 화면 분석, 문서 인텔리전스, 지식 산출물 생성. Nemotron-3 Nano Omni는 BibiGPT가 긴 오디오/영상 이해를 라우팅하는 멀티모달 백본의 형태 그 자체.
긴 영상 이해의 추론이 저렴해짐
30B-A3B 모델이 토큰당 ~3B 활성으로 동작 — 추론 비용이 dense 30B의 약 한 자릿수 저렴. WorldSense·DailyOmni 영상/오디오 벤치 선두. BibiGPT가 긴 강의·팟캐스트·콘퍼런스를 Nemotron급 추론에 라우팅하면서도 플래그십 예산을 태우지 않음.
문서 인텔리전스 + 오디오를 한 패스에
MMlongbench-Doc과 OCRBenchV2에서 클래스 최고, Parakeet으로 오디오까지. BibiGPT의 문서 Q&A, 자막 번역, 회의 전사 파이프라인이 한 번의 멀티모달 포워드로 압축.
엣지·셀프호스트 경로 개방
FP8(~32.8 GB)과 NVFP4(~20.9 GB) 변형으로 단일 GPU 배포가 현실적. BibiGPT의 엔터프라이즈 API 고객에게 민감한 영상용 온프레미스 멀티모달 옵션 — 호스팅 전용 플래그십이 아닌.
5가지 핵심 변경(90초 읽기)
Nemotron-3 Nano Omni(2026-04-28) 출시의 헤드라인.
- 1
30B-A3B MoE가 멀티모달로
NVIDIA가 Nemotron 3 Nano 패밀리를 통합 이미지/영상/오디오/텍스트 모델로 확장. 총 31B, 토큰당 ~3B 활성을 128 전문가 top-6 MoE로 — 장문맥 멀티모달을 dense 3B 추론 비용으로.
- 2
Mamba2-Transformer 하이브리드 백본
구조는 23개 Mamba 선택적 상태공간, 23개 MoE, 6개 GQA 주의를 교차 배치. Mamba가 장문맥의 무거운 일을, MoE가 조건부 용량을, GQA가 가장 중요한 위치의 주의를 담당.
- 3
비전과 오디오 인코더 통합
CRADIO v4-H가 이미지·영상 프레임, Parakeet이 오디오 처리. 한 모델이 문서 인텔리전스, 영상 이해, 전사, 오디오 Q&A 커버 — 모달리티별 별도 스택 불필요.
- 4
Hugging Face Day-0 + 상업 라이선스
NVIDIA Open Model Agreement에 따라 출시, 완전 상업 이용권 포함. BF16, FP8, NVFP4가 첫날 Hugging Face 공개, 더해 OpenRouter(무료 티어)와 build.nvidia.com NIM 마이크로서비스.
- 5
양자화로 단일 GPU 배포 가능
FP8 변형 ≈ 32.8 GB(가중치당 8.5 비트, FP8 KV 캐시 포함), NVFP4 혼합 정밀도 ≈ 20.9 GB(~4.98 비트/가중치). 온프레미스 멀티모달 추론이 필요한 기업에 셀프 배포 경로 개방.
BibiGPT 사용자의 3가지 전형 시나리오
Nemotron-3 Nano Omni가 BibiGPT 크리에이터와 엔터프라이즈 사용자에게 가장 큰 가치를 주는 곳.
낮은 활성 비용의 긴 영상 이해
BibiGPT가 90분 강의, 팟캐스트, 콘퍼런스를 요약. 30B-A3B MoE가 토큰당 ~3B만 활성 — 추론 비용이 dense 30B의 몇 분의 일, 동시에 WorldSense·DailyOmni 영상/오디오 벤치 선두.
문서 Q&A + 오디오 인텔리전스 한 모델에
Nemotron-3 Nano Omni가 MMlongbench-Doc, OCRBenchV2 클래스 최고, Parakeet으로 오디오까지 처리. BibiGPT의 문서 Q&A, 자막 번역, 회의 전사 파이프라인이 한 번의 멀티모달 포워드로 수렴.
엔터프라이즈 API 고객용 온프레미스 멀티모달
FP8(~32.8 GB)과 NVFP4(~20.9 GB) 변형으로 단일 GPU 배포가 현실적. 민감한 영상을 다루는 BibiGPT 엔터프라이즈 API 고객에게 Nemotron-3 Nano Omni는 온프레미스 백본 옵션 — 호스팅 전용 플래그십이 아닌.
FAQ
자주 묻는 질문
무엇이든 물어보세요!
BibiGPT로 긴 영상 요약 — 뒤에는 Nemotron급 멀티모달 모델
BibiGPT가 긴 영상·오디오·문서 이해를 NVIDIA Nemotron-3 Nano Omni 같은 멀티모달 백본으로 라우팅. B站 / YouTube / 팟캐스트 링크를 붙이거나 파일을 업로드하면 — 워크플로를 떠나지 않고 요약, 마인드맵, AI Q&A, 짧은 영상 재렌더링까지.