Nemotron-3 Nano Omni × BibiGPT
NVIDIA 在 2026-04-28 發佈 Nemotron-3 Nano Omni——30B-A3B Mamba-Transformer MoE 多模態模型,每 token 僅約 3B 啟用參數,統一處理影像、影片、音訊與文字。Hugging Face Day-0 上線,遵循 NVIDIA Open Model Agreement,支援完全商用。BibiGPT 把長影片理解、長上下文音訊問答、文件智慧路由到 Nemotron 級多模態骨幹,服務創作者與企業工作流。
核心事實(90 秒速讀)
NVIDIA 在 2026-04-28 發佈 Nemotron-3 Nano Omni——30B-A3B Mamba2-Transformer MoE 多模態模型,每 token 約 3B 啟用,統一處理影像、影片、音訊、文字。Hugging Face Day-0 上線,遵循 NVIDIA Open Model Agreement 支援完全商用,並同步登上 OpenRouter 與 build.nvidia.com NIM。MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni 業內最佳,多模態吞吐相比同類最高提升 9 倍。對 BibiGPT 用戶而言,這就是把長影片、Podcast、文件問答路由過去的多模態骨幹形態。
Features
Nemotron-3 Nano Omni 是什麼?
NVIDIA 2026-04-28 發佈、Nemotron 3 Nano 家族的多模態旗艦——30B 參數 Mamba2-Transformer 混合 MoE 骨幹,128 個專家、top-6 路由、每 token 約 3B 啟用。一個模型統一處理影像、影片、音訊、文字,Hugging Face Day-0 直接可用。
30B-A3B MoE 多模態骨幹
總參數 31B,透過 128 專家 top-6 MoE 路由實現每 token ~3B 啟用。23 層 Mamba 狀態空間(長上下文)+ 23 層 MoE + 6 層 GQA 注意力——長上下文多模態智慧跑在 3B 啟用推論成本上。
影像 · 影片 · 音訊 · 文字一模型搞定
CRADIO v4-H 作為視覺編碼器處理影像和影片幀;Parakeet 作為語音編碼器處理音訊。一個模型涵蓋文件問答、總結、轉寫、影片推論——不再為每個模態單獨維護一套堆疊。
Hugging Face Day-0 + 商用友善
在 NVIDIA Open Model Agreement 下發佈,享有完整商用權。BF16、FP8、NVFP4 三個量化變體首日同步登上 Hugging Face(外加 OpenRouter 與 build.nvidia.com NIM),本地部署與 serverless 都很順暢。
對 BibiGPT 用戶的意義
BibiGPT 是面向創作者與企業的 AI 影音助理——長影片總結、畫面分析、文件智慧、知識產物生成。Nemotron-3 Nano Omni 正是 BibiGPT 長影片與音訊理解會路由到的多模態骨幹形態。
長影片理解推論變便宜
30B-A3B 模型每 token 僅約 3B 啟用,推論成本大致是密集 30B 的十分之一——而 WorldSense 與 DailyOmni 影片/音訊榜單領先。BibiGPT 把長演講、Podcast、會議路由到 Nemotron 級推論時不再燒旗艦預算。
文件智慧 + 音訊一次搞定
MMlongbench-Doc、OCRBenchV2 業內最佳,且透過 Parakeet 同時處理音訊。BibiGPT 的文件問答、字幕翻譯、會議轉寫流水線被壓縮到一次多模態前向。
邊緣與自部署成為可能
FP8 (~32.8 GB) 與 NVFP4 (~20.9 GB) 讓單卡部署可行。對 BibiGPT 的企業 API 客戶,Nemotron-3 Nano Omni 提供了一條本地多模態路徑——而不是只有雲端旗艦一種選擇。
5 條關鍵變化(90 秒速讀)
Nemotron-3 Nano Omni(2026-04-28 發佈)的關鍵改變。
- 1
Nemotron 3 Nano 上探多模態
NVIDIA 把 Nemotron 3 Nano 家族延伸到統一的影像/影片/音訊/文字模型。31B 總參數、~3B 啟用,透過 128 專家 top-6 MoE 路由——長上下文多模態跑在密集 3B 推論成本上。
- 2
Mamba2-Transformer 混合骨幹
結構交錯 23 層 Mamba 狀態空間、23 層 MoE、6 層 GQA 注意力。Mamba 擔當長上下文重活;MoE 提供條件式容量;GQA 在最關鍵的位置提供注意力。
- 3
視覺與音訊編碼器統一
CRADIO v4-H 處理影像與影片幀;Parakeet 處理音訊。一個模型涵蓋文件智慧、影片理解、轉寫與音訊問答——不再為每個模態單獨維護一套堆疊。
- 4
Hugging Face Day-0 + 商用授權
在 NVIDIA Open Model Agreement 下發佈,享有完整商用權。BF16、FP8、NVFP4 同步登上 Hugging Face,外加 OpenRouter(免費級)與 build.nvidia.com NIM 微服務。
- 5
量化讓單卡部署成為可能
FP8 變體 ≈ 32.8 GB(每權重 8.5 位元,配 FP8 KV cache);NVFP4 混精度 ≈ 20.9 GB(約 4.98 位元/權重)。需要本地多模態推論的企業可以走自部署路徑。
BibiGPT 用戶的 3 個典型場景
Nemotron-3 Nano Omni 對 BibiGPT 創作者與企業用戶最有價值的場景。
低啟用成本下做長影片理解
BibiGPT 總結 90 分鐘演講、Podcast、會議。30B-A3B MoE 每 token 僅啟用約 3B,推論成本是密集 30B 的幾分之一——同時在 WorldSense 與 DailyOmni 影片/音訊榜單領先。
文件問答 + 音訊智慧合一
MMlongbench-Doc、OCRBenchV2 業內最佳,加上 Parakeet 音訊。BibiGPT 的文件問答、字幕翻譯、會議轉寫流水線壓縮到一次多模態前向。
企業 API 客戶的本地多模態
FP8 (~32.8 GB) 與 NVFP4 (~20.9 GB) 讓單卡部署可行。對持有敏感素材的 BibiGPT 企業客戶,Nemotron-3 Nano Omni 提供了一條本地多模態骨幹——而不是只有雲端旗艦。
FAQ
常見問題
歡迎提問!
用 BibiGPT 總結長影片——背後是 Nemotron 級多模態模型
BibiGPT 把長影片、音訊、文件理解路由到 NVIDIA Nemotron-3 Nano Omni 這種多模態骨幹。貼上 B站 / YouTube / Podcast 連結或上傳檔案,就能拿到總結、心智圖、AI 追問與短影片改寫——不必切換工具。