Nemotron-3 Nano Omni × BibiGPT

NVIDIA 在 2026-04-28 發佈 Nemotron-3 Nano Omni——30B-A3B Mamba-Transformer MoE 多模態模型，每 token 僅約 3B 啟用參數，統一處理影像、影片、音訊與文字。Hugging Face Day-0 上線，遵循 NVIDIA Open Model Agreement，支援完全商用。BibiGPT 把長影片理解、長上下文音訊問答、文件智慧路由到 Nemotron 級多模態骨幹，服務創作者與企業工作流。

用 BibiGPT 總結長影片

發佈 · 2026-04-28 30B-A3B MoE 多模態 Hugging Face Day-0

核心事實（90 秒速讀）

NVIDIA 在 2026-04-28 發佈 Nemotron-3 Nano Omni——30B-A3B Mamba2-Transformer MoE 多模態模型，每 token 約 3B 啟用，統一處理影像、影片、音訊、文字。Hugging Face Day-0 上線，遵循 NVIDIA Open Model Agreement 支援完全商用，並同步登上 OpenRouter 與 build.nvidia.com NIM。MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni 業內最佳，多模態吞吐相比同類最高提升 9 倍。對 BibiGPT 用戶而言，這就是把長影片、Podcast、文件問答路由過去的多模態骨幹形態。

Nemotron-3 Nano Omni 是什麼？

NVIDIA 2026-04-28 發佈、Nemotron 3 Nano 家族的多模態旗艦——30B 參數 Mamba2-Transformer 混合 MoE 骨幹，128 個專家、top-6 路由、每 token 約 3B 啟用。一個模型統一處理影像、影片、音訊、文字，Hugging Face Day-0 直接可用。

30B-A3B MoE 多模態骨幹

總參數 31B，透過 128 專家 top-6 MoE 路由實現每 token ~3B 啟用。23 層 Mamba 狀態空間（長上下文）+ 23 層 MoE + 6 層 GQA 注意力——長上下文多模態智慧跑在 3B 啟用推論成本上。

影像 · 影片 · 音訊 · 文字一模型搞定

CRADIO v4-H 作為視覺編碼器處理影像和影片幀；Parakeet 作為語音編碼器處理音訊。一個模型涵蓋文件問答、總結、轉寫、影片推論——不再為每個模態單獨維護一套堆疊。

Hugging Face Day-0 + 商用友善

在 NVIDIA Open Model Agreement 下發佈，享有完整商用權。BF16、FP8、NVFP4 三個量化變體首日同步登上 Hugging Face（外加 OpenRouter 與 build.nvidia.com NIM），本地部署與 serverless 都很順暢。

對 BibiGPT 用戶的意義

BibiGPT 是面向創作者與企業的 AI 影音助理——長影片總結、畫面分析、文件智慧、知識產物生成。Nemotron-3 Nano Omni 正是 BibiGPT 長影片與音訊理解會路由到的多模態骨幹形態。

長影片理解推論變便宜

30B-A3B 模型每 token 僅約 3B 啟用，推論成本大致是密集 30B 的十分之一——而 WorldSense 與 DailyOmni 影片/音訊榜單領先。BibiGPT 把長演講、Podcast、會議路由到 Nemotron 級推論時不再燒旗艦預算。

文件智慧 + 音訊一次搞定

MMlongbench-Doc、OCRBenchV2 業內最佳，且透過 Parakeet 同時處理音訊。BibiGPT 的文件問答、字幕翻譯、會議轉寫流水線被壓縮到一次多模態前向。

邊緣與自部署成為可能

FP8 (~32.8 GB) 與 NVFP4 (~20.9 GB) 讓單卡部署可行。對 BibiGPT 的企業 API 客戶，Nemotron-3 Nano Omni 提供了一條本地多模態路徑——而不是只有雲端旗艦一種選擇。

5 條關鍵變化（90 秒速讀）

Nemotron-3 Nano Omni（2026-04-28 發佈）的關鍵改變。

1

Nemotron 3 Nano 上探多模態

NVIDIA 把 Nemotron 3 Nano 家族延伸到統一的影像/影片/音訊/文字模型。31B 總參數、~3B 啟用，透過 128 專家 top-6 MoE 路由——長上下文多模態跑在密集 3B 推論成本上。
2

Mamba2-Transformer 混合骨幹

結構交錯 23 層 Mamba 狀態空間、23 層 MoE、6 層 GQA 注意力。Mamba 擔當長上下文重活；MoE 提供條件式容量；GQA 在最關鍵的位置提供注意力。
3

視覺與音訊編碼器統一

CRADIO v4-H 處理影像與影片幀；Parakeet 處理音訊。一個模型涵蓋文件智慧、影片理解、轉寫與音訊問答——不再為每個模態單獨維護一套堆疊。
4

Hugging Face Day-0 + 商用授權

在 NVIDIA Open Model Agreement 下發佈，享有完整商用權。BF16、FP8、NVFP4 同步登上 Hugging Face，外加 OpenRouter（免費級）與 build.nvidia.com NIM 微服務。
5

量化讓單卡部署成為可能

FP8 變體 ≈ 32.8 GB（每權重 8.5 位元，配 FP8 KV cache）；NVFP4 混精度 ≈ 20.9 GB（約 4.98 位元/權重）。需要本地多模態推論的企業可以走自部署路徑。

BibiGPT 用戶的 3 個典型場景

Nemotron-3 Nano Omni 對 BibiGPT 創作者與企業用戶最有價值的場景。

低啟用成本下做長影片理解

BibiGPT 總結 90 分鐘演講、Podcast、會議。30B-A3B MoE 每 token 僅啟用約 3B，推論成本是密集 30B 的幾分之一——同時在 WorldSense 與 DailyOmni 影片/音訊榜單領先。

文件問答 + 音訊智慧合一

MMlongbench-Doc、OCRBenchV2 業內最佳，加上 Parakeet 音訊。BibiGPT 的文件問答、字幕翻譯、會議轉寫流水線壓縮到一次多模態前向。

企業 API 客戶的本地多模態

FP8 (~32.8 GB) 與 NVFP4 (~20.9 GB) 讓單卡部署可行。對持有敏感素材的 BibiGPT 企業客戶，Nemotron-3 Nano Omni 提供了一條本地多模態骨幹——而不是只有雲端旗艦。

FAQ

常見問題

歡迎提問！

用 BibiGPT 總結長影片——背後是 Nemotron 級多模態模型

BibiGPT 把長影片、音訊、文件理解路由到 NVIDIA Nemotron-3 Nano Omni 這種多模態骨幹。貼上 B站 / YouTube / Podcast 連結或上傳檔案，就能拿到總結、心智圖、AI 追問與短影片改寫——不必切換工具。

免費體驗 BibiGPT

Nemotron-3 Nano Omni × BibiGPT

核心事實（90 秒速讀）

Features

Nemotron-3 Nano Omni 是什麼？

30B-A3B MoE 多模態骨幹

影像 · 影片 · 音訊 · 文字一模型搞定

Hugging Face Day-0 + 商用友善

對 BibiGPT 用戶的意義

長影片理解推論變便宜

文件智慧 + 音訊一次搞定

邊緣與自部署成為可能

5 條關鍵變化（90 秒速讀）

Nemotron 3 Nano 上探多模態

Mamba2-Transformer 混合骨幹

視覺與音訊編碼器統一

Hugging Face Day-0 + 商用授權

量化讓單卡部署成為可能

BibiGPT 用戶的 3 個典型場景

低啟用成本下做長影片理解

文件問答 + 音訊智慧合一

企業 API 客戶的本地多模態

常見問題

更多免費工具

Gemini Flash TTS × BibiGPT

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

DeepSeek-V4 1M

用 BibiGPT 總結長影片——背後是 Nemotron 級多模態模型