Nemotron-3 Nano Omni × BibiGPT
NVIDIA は 2026-04-28 に Nemotron-3 Nano Omni をリリース——30B-A3B Mamba-Transformer MoE マルチモーダルモデル、トークン当たり約 3B のアクティブパラメータで、画像・動画・音声・テキストを統合処理。Hugging Face Day-0 公開、NVIDIA Open Model Agreement の下フル商用利用可。BibiGPT は長尺動画理解、長文脈音声 Q&A、文書インテリジェンスを Nemotron 級マルチモーダルバックボーンにルーティングし、クリエイターとエンタープライズ双方のワークフローを支援します。
重要ファクト(90 秒で読了)
NVIDIA は 2026-04-28 に Nemotron-3 Nano Omni をリリース——30B-A3B Mamba2-Transformer MoE マルチモーダルモデル、トークン当たり ~3B アクティブで画像・動画・音声・テキストを統合処理。Hugging Face Day-0、NVIDIA Open Model Agreement の下フル商用利用可、OpenRouter と build.nvidia.com NIM にも同時提供。MMlongbench-Doc・OCRBenchV2・WorldSense・DailyOmni でクラス最良、マルチモーダルスループットは同等品比最大 9 倍。BibiGPT ユーザーには長尺動画・ポッドキャスト・文書 Q&A をルーティングするマルチモーダルバックボーンの形。
Features
Nemotron-3 Nano Omni とは?
NVIDIA が 2026-04-28 にリリースした Nemotron 3 Nano ファミリーのマルチモーダル旗艦——30B パラメータの Mamba2-Transformer ハイブリッド MoE バックボーン、128 エキスパート、top-6 ルーティング、トークン当たり約 3B アクティブ。1 モデルで画像・動画・音声・テキスト理解を統合し、Hugging Face で Day-0 利用可。
30B-A3B MoE マルチモーダルバックボーン
総 31B パラメータ、128 エキスパート top-6 MoE ルーティングでトークン当たり ~3B アクティブ。23 層の Mamba 選択的状態空間(長文脈効率)+ 23 層 MoE + 6 層 GQA 注意——長文脈マルチモーダル知能を 3B アクティブの推論コストで。
画像 · 動画 · 音声 · テキストを 1 モデルで
CRADIO v4-H が画像・動画フレームのビジョンエンコーダ、Parakeet が音声エンコーダ。文書 Q&A、要約、転写、動画推論を 1 モデルで——モダリティごとに別スタックを維持しなくてよい。
Hugging Face Day-0、商用フレンドリー
NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。BF16・FP8・NVFP4 全バリアントが初日に Hugging Face 公開(OpenRouter と build.nvidia.com NIM も)、ローカル・サーバーレスデプロイが容易。
BibiGPT ユーザーへの意味
BibiGPT はクリエイターと企業向け AI 音声・動画アシスタント——長尺動画要約、画面分析、文書インテリジェンス、知識アウトプット生成。Nemotron-3 Nano Omni はまさに BibiGPT が長尺音声・動画理解をルーティングするマルチモーダルバックボーンの形。
長尺動画理解の推論が安く
30B-A3B モデルでトークン当たり ~3B アクティブのみ、推論コストは密な 30B のおよそ 1 桁安——WorldSense・DailyOmni 動画/音声ベンチマークで首位。BibiGPT は長尺講義・ポッドキャスト・カンファレンスを Nemotron 級推論にルーティングしながら旗艦予算を燃やさずに済む。
文書インテリジェンス + 音声を 1 パスで
MMlongbench-Doc・OCRBenchV2 でクラス最良、加えて Parakeet で音声。BibiGPT の文書 Q&A、字幕翻訳、会議転写パイプラインが 1 回のマルチモーダル前向きに収まる。
エッジ・セルフホスト経路が開く
FP8 (~32.8 GB) と NVFP4 (~20.9 GB) で単一 GPU デプロイが現実的に。BibiGPT のエンタープライズ API 顧客にとって、Nemotron-3 Nano Omni はオンプレミスのマルチモーダル選択肢——クラウド限定の旗艦だけではない。
5 つの主要変更(90 秒で読了)
Nemotron-3 Nano Omni(2026-04-28 リリース)の要点。
- 1
30B-A3B MoE がマルチモーダルへ
NVIDIA は Nemotron 3 Nano ファミリーを画像/動画/音声/テキスト統合モデルへ拡張。総 31B、トークン当たり ~3B アクティブを 128 エキスパート top-6 MoE で実現——長文脈マルチモーダルを 3B 密相当の推論コストで。
- 2
Mamba2-Transformer ハイブリッドバックボーン
構造は 23 層 Mamba 選択的状態空間、23 層 MoE、6 層 GQA 注意を交互配置。Mamba が長文脈の重労働、MoE が条件付き容量、GQA が最重要箇所の注意を担う。
- 3
視覚・音声エンコーダ統合
CRADIO v4-H が画像・動画フレーム、Parakeet が音声を担当。1 モデルで文書インテリジェンス、動画理解、転写、音声 Q&A——モダリティごとに別スタック不要。
- 4
Hugging Face Day-0 + 商用ライセンス
NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。BF16・FP8・NVFP4 が初日に Hugging Face 公開、加えて OpenRouter(無料枠)と build.nvidia.com NIM マイクロサービス。
- 5
量子化で単一 GPU デプロイ実現
FP8 変体 ≈ 32.8 GB(重み当たり 8.5 ビット、FP8 KV キャッシュ付き)、NVFP4 混合精度 ≈ 20.9 GB(~4.98 ビット/重み)。オンプレミスマルチモーダル推論を必要とする企業に自前デプロイ経路が開く。
BibiGPT ユーザーの 3 つの典型シナリオ
Nemotron-3 Nano Omni が BibiGPT のクリエイター・企業ユーザーに最も効く領域。
低アクティブパラメータコストでの長尺動画理解
BibiGPT が 90 分の講義、ポッドキャスト、カンファレンスを要約。30B-A3B MoE のトークン当たり ~3B アクティブで、推論コストは密な 30B の数分の一——WorldSense・DailyOmni 動画/音声ベンチで首位。
文書 Q&A + 音声インテリジェンスを 1 モデルで
Nemotron-3 Nano Omni は MMlongbench-Doc・OCRBenchV2 でクラス最良、Parakeet で音声も処理。BibiGPT の文書 Q&A、字幕翻訳、会議転写パイプラインが 1 回のマルチモーダル前向きに収束。
エンタープライズ API 顧客向けオンプレミスマルチモーダル
FP8 (~32.8 GB) と NVFP4 (~20.9 GB) で単一 GPU デプロイが現実的に。機密素材を扱う BibiGPT のエンタープライズ API 顧客にとって、Nemotron-3 Nano Omni はオンプレミスバックボーン選択肢——クラウド限定旗艦だけではない。
よくある質問
よくある質問
ご質問はありますか?お気軽にどうぞ!
BibiGPT で長尺動画を要約——裏には Nemotron 級マルチモーダル
BibiGPT は長尺動画・音声・文書理解を NVIDIA Nemotron-3 Nano Omni のようなマルチモーダルバックボーンにルーティング。B站 / YouTube / ポッドキャストリンクを貼るかファイルをアップロードするだけで、要約・マインドマップ・AI Q&A・短尺再レンダリングがワークフローを離れずに完了。