Nemotron-3 Nano Omni × BibiGPT

NVIDIA 在 2026-04-28 發佈 Nemotron-3 Nano Omni——30B-A3B Mamba-Transformer MoE 多模態模型,每 token 僅約 3B 啟用參數,統一處理影像、影片、音訊與文字。Hugging Face Day-0 上線,遵循 NVIDIA Open Model Agreement,支援完全商用。BibiGPT 把長影片理解、長上下文音訊問答、文件智慧路由到 Nemotron 級多模態骨幹,服務創作者與企業工作流。

發佈 · 2026-04-28 30B-A3B MoE 多模態 Hugging Face Day-0

核心事實(90 秒速讀)

NVIDIA 在 2026-04-28 發佈 Nemotron-3 Nano Omni——30B-A3B Mamba2-Transformer MoE 多模態模型,每 token 約 3B 啟用,統一處理影像、影片、音訊、文字。Hugging Face Day-0 上線,遵循 NVIDIA Open Model Agreement 支援完全商用,並同步登上 OpenRouter 與 build.nvidia.com NIM。MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni 業內最佳,多模態吞吐相比同類最高提升 9 倍。對 BibiGPT 用戶而言,這就是把長影片、Podcast、文件問答路由過去的多模態骨幹形態。

Features

Nemotron-3 Nano Omni 是什麼?

NVIDIA 2026-04-28 發佈、Nemotron 3 Nano 家族的多模態旗艦——30B 參數 Mamba2-Transformer 混合 MoE 骨幹,128 個專家、top-6 路由、每 token 約 3B 啟用。一個模型統一處理影像、影片、音訊、文字,Hugging Face Day-0 直接可用。

30B-A3B MoE 多模態骨幹

總參數 31B,透過 128 專家 top-6 MoE 路由實現每 token ~3B 啟用。23 層 Mamba 狀態空間(長上下文)+ 23 層 MoE + 6 層 GQA 注意力——長上下文多模態智慧跑在 3B 啟用推論成本上。

影像 · 影片 · 音訊 · 文字一模型搞定

CRADIO v4-H 作為視覺編碼器處理影像和影片幀;Parakeet 作為語音編碼器處理音訊。一個模型涵蓋文件問答、總結、轉寫、影片推論——不再為每個模態單獨維護一套堆疊。

Hugging Face Day-0 + 商用友善

在 NVIDIA Open Model Agreement 下發佈,享有完整商用權。BF16、FP8、NVFP4 三個量化變體首日同步登上 Hugging Face(外加 OpenRouter 與 build.nvidia.com NIM),本地部署與 serverless 都很順暢。

對 BibiGPT 用戶的意義

BibiGPT 是面向創作者與企業的 AI 影音助理——長影片總結、畫面分析、文件智慧、知識產物生成。Nemotron-3 Nano Omni 正是 BibiGPT 長影片與音訊理解會路由到的多模態骨幹形態。

長影片理解推論變便宜

30B-A3B 模型每 token 僅約 3B 啟用,推論成本大致是密集 30B 的十分之一——而 WorldSense 與 DailyOmni 影片/音訊榜單領先。BibiGPT 把長演講、Podcast、會議路由到 Nemotron 級推論時不再燒旗艦預算。

文件智慧 + 音訊一次搞定

MMlongbench-Doc、OCRBenchV2 業內最佳,且透過 Parakeet 同時處理音訊。BibiGPT 的文件問答、字幕翻譯、會議轉寫流水線被壓縮到一次多模態前向。

邊緣與自部署成為可能

FP8 (~32.8 GB) 與 NVFP4 (~20.9 GB) 讓單卡部署可行。對 BibiGPT 的企業 API 客戶,Nemotron-3 Nano Omni 提供了一條本地多模態路徑——而不是只有雲端旗艦一種選擇。

5 條關鍵變化(90 秒速讀)

Nemotron-3 Nano Omni(2026-04-28 發佈)的關鍵改變。

  1. 1

    Nemotron 3 Nano 上探多模態

    NVIDIA 把 Nemotron 3 Nano 家族延伸到統一的影像/影片/音訊/文字模型。31B 總參數、~3B 啟用,透過 128 專家 top-6 MoE 路由——長上下文多模態跑在密集 3B 推論成本上。

  2. 2

    Mamba2-Transformer 混合骨幹

    結構交錯 23 層 Mamba 狀態空間、23 層 MoE、6 層 GQA 注意力。Mamba 擔當長上下文重活;MoE 提供條件式容量;GQA 在最關鍵的位置提供注意力。

  3. 3

    視覺與音訊編碼器統一

    CRADIO v4-H 處理影像與影片幀;Parakeet 處理音訊。一個模型涵蓋文件智慧、影片理解、轉寫與音訊問答——不再為每個模態單獨維護一套堆疊。

  4. 4

    Hugging Face Day-0 + 商用授權

    在 NVIDIA Open Model Agreement 下發佈,享有完整商用權。BF16、FP8、NVFP4 同步登上 Hugging Face,外加 OpenRouter(免費級)與 build.nvidia.com NIM 微服務。

  5. 5

    量化讓單卡部署成為可能

    FP8 變體 ≈ 32.8 GB(每權重 8.5 位元,配 FP8 KV cache);NVFP4 混精度 ≈ 20.9 GB(約 4.98 位元/權重)。需要本地多模態推論的企業可以走自部署路徑。

BibiGPT 用戶的 3 個典型場景

Nemotron-3 Nano Omni 對 BibiGPT 創作者與企業用戶最有價值的場景。

低啟用成本下做長影片理解

BibiGPT 總結 90 分鐘演講、Podcast、會議。30B-A3B MoE 每 token 僅啟用約 3B,推論成本是密集 30B 的幾分之一——同時在 WorldSense 與 DailyOmni 影片/音訊榜單領先。

文件問答 + 音訊智慧合一

MMlongbench-Doc、OCRBenchV2 業內最佳,加上 Parakeet 音訊。BibiGPT 的文件問答、字幕翻譯、會議轉寫流水線壓縮到一次多模態前向。

企業 API 客戶的本地多模態

FP8 (~32.8 GB) 與 NVFP4 (~20.9 GB) 讓單卡部署可行。對持有敏感素材的 BibiGPT 企業客戶,Nemotron-3 Nano Omni 提供了一條本地多模態骨幹——而不是只有雲端旗艦。

常見問題

歡迎提問!

用 BibiGPT 總結長影片——背後是 Nemotron 級多模態模型

BibiGPT 把長影片、音訊、文件理解路由到 NVIDIA Nemotron-3 Nano Omni 這種多模態骨幹。貼上 B站 / YouTube / Podcast 連結或上傳檔案,就能拿到總結、心智圖、AI 追問與短影片改寫——不必切換工具。