Nemotron-3 Nano Omni × BibiGPT

NVIDIA は 2026-04-28 に Nemotron-3 Nano Omni をリリース——30B-A3B Mamba-Transformer MoE マルチモーダルモデル、トークン当たり約 3B のアクティブパラメータで、画像・動画・音声・テキストを統合処理。Hugging Face Day-0 公開、NVIDIA Open Model Agreement の下フル商用利用可。BibiGPT は長尺動画理解、長文脈音声 Q&A、文書インテリジェンスを Nemotron 級マルチモーダルバックボーンにルーティングし、クリエイターとエンタープライズ双方のワークフローを支援します。

リリース · 2026-04-28 30B-A3B MoE マルチモーダル Hugging Face Day-0

重要ファクト(90 秒で読了)

NVIDIA は 2026-04-28 に Nemotron-3 Nano Omni をリリース——30B-A3B Mamba2-Transformer MoE マルチモーダルモデル、トークン当たり ~3B アクティブで画像・動画・音声・テキストを統合処理。Hugging Face Day-0、NVIDIA Open Model Agreement の下フル商用利用可、OpenRouter と build.nvidia.com NIM にも同時提供。MMlongbench-Doc・OCRBenchV2・WorldSense・DailyOmni でクラス最良、マルチモーダルスループットは同等品比最大 9 倍。BibiGPT ユーザーには長尺動画・ポッドキャスト・文書 Q&A をルーティングするマルチモーダルバックボーンの形。

Features

Nemotron-3 Nano Omni とは?

NVIDIA が 2026-04-28 にリリースした Nemotron 3 Nano ファミリーのマルチモーダル旗艦——30B パラメータの Mamba2-Transformer ハイブリッド MoE バックボーン、128 エキスパート、top-6 ルーティング、トークン当たり約 3B アクティブ。1 モデルで画像・動画・音声・テキスト理解を統合し、Hugging Face で Day-0 利用可。

30B-A3B MoE マルチモーダルバックボーン

総 31B パラメータ、128 エキスパート top-6 MoE ルーティングでトークン当たり ~3B アクティブ。23 層の Mamba 選択的状態空間(長文脈効率)+ 23 層 MoE + 6 層 GQA 注意——長文脈マルチモーダル知能を 3B アクティブの推論コストで。

画像 · 動画 · 音声 · テキストを 1 モデルで

CRADIO v4-H が画像・動画フレームのビジョンエンコーダ、Parakeet が音声エンコーダ。文書 Q&A、要約、転写、動画推論を 1 モデルで——モダリティごとに別スタックを維持しなくてよい。

Hugging Face Day-0、商用フレンドリー

NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。BF16・FP8・NVFP4 全バリアントが初日に Hugging Face 公開(OpenRouter と build.nvidia.com NIM も)、ローカル・サーバーレスデプロイが容易。

BibiGPT ユーザーへの意味

BibiGPT はクリエイターと企業向け AI 音声・動画アシスタント——長尺動画要約、画面分析、文書インテリジェンス、知識アウトプット生成。Nemotron-3 Nano Omni はまさに BibiGPT が長尺音声・動画理解をルーティングするマルチモーダルバックボーンの形。

長尺動画理解の推論が安く

30B-A3B モデルでトークン当たり ~3B アクティブのみ、推論コストは密な 30B のおよそ 1 桁安——WorldSense・DailyOmni 動画/音声ベンチマークで首位。BibiGPT は長尺講義・ポッドキャスト・カンファレンスを Nemotron 級推論にルーティングしながら旗艦予算を燃やさずに済む。

文書インテリジェンス + 音声を 1 パスで

MMlongbench-Doc・OCRBenchV2 でクラス最良、加えて Parakeet で音声。BibiGPT の文書 Q&A、字幕翻訳、会議転写パイプラインが 1 回のマルチモーダル前向きに収まる。

エッジ・セルフホスト経路が開く

FP8 (~32.8 GB) と NVFP4 (~20.9 GB) で単一 GPU デプロイが現実的に。BibiGPT のエンタープライズ API 顧客にとって、Nemotron-3 Nano Omni はオンプレミスのマルチモーダル選択肢——クラウド限定の旗艦だけではない。

5 つの主要変更(90 秒で読了)

Nemotron-3 Nano Omni(2026-04-28 リリース)の要点。

  1. 1

    30B-A3B MoE がマルチモーダルへ

    NVIDIA は Nemotron 3 Nano ファミリーを画像/動画/音声/テキスト統合モデルへ拡張。総 31B、トークン当たり ~3B アクティブを 128 エキスパート top-6 MoE で実現——長文脈マルチモーダルを 3B 密相当の推論コストで。

  2. 2

    Mamba2-Transformer ハイブリッドバックボーン

    構造は 23 層 Mamba 選択的状態空間、23 層 MoE、6 層 GQA 注意を交互配置。Mamba が長文脈の重労働、MoE が条件付き容量、GQA が最重要箇所の注意を担う。

  3. 3

    視覚・音声エンコーダ統合

    CRADIO v4-H が画像・動画フレーム、Parakeet が音声を担当。1 モデルで文書インテリジェンス、動画理解、転写、音声 Q&A——モダリティごとに別スタック不要。

  4. 4

    Hugging Face Day-0 + 商用ライセンス

    NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。BF16・FP8・NVFP4 が初日に Hugging Face 公開、加えて OpenRouter(無料枠)と build.nvidia.com NIM マイクロサービス。

  5. 5

    量子化で単一 GPU デプロイ実現

    FP8 変体 ≈ 32.8 GB(重み当たり 8.5 ビット、FP8 KV キャッシュ付き)、NVFP4 混合精度 ≈ 20.9 GB(~4.98 ビット/重み)。オンプレミスマルチモーダル推論を必要とする企業に自前デプロイ経路が開く。

BibiGPT ユーザーの 3 つの典型シナリオ

Nemotron-3 Nano Omni が BibiGPT のクリエイター・企業ユーザーに最も効く領域。

低アクティブパラメータコストでの長尺動画理解

BibiGPT が 90 分の講義、ポッドキャスト、カンファレンスを要約。30B-A3B MoE のトークン当たり ~3B アクティブで、推論コストは密な 30B の数分の一——WorldSense・DailyOmni 動画/音声ベンチで首位。

文書 Q&A + 音声インテリジェンスを 1 モデルで

Nemotron-3 Nano Omni は MMlongbench-Doc・OCRBenchV2 でクラス最良、Parakeet で音声も処理。BibiGPT の文書 Q&A、字幕翻訳、会議転写パイプラインが 1 回のマルチモーダル前向きに収束。

エンタープライズ API 顧客向けオンプレミスマルチモーダル

FP8 (~32.8 GB) と NVFP4 (~20.9 GB) で単一 GPU デプロイが現実的に。機密素材を扱う BibiGPT のエンタープライズ API 顧客にとって、Nemotron-3 Nano Omni はオンプレミスバックボーン選択肢——クラウド限定旗艦だけではない。

よくある質問

ご質問はありますか?お気軽にどうぞ!

BibiGPT で長尺動画を要約——裏には Nemotron 級マルチモーダル

BibiGPT は長尺動画・音声・文書理解を NVIDIA Nemotron-3 Nano Omni のようなマルチモーダルバックボーンにルーティング。B站 / YouTube / ポッドキャストリンクを貼るかファイルをアップロードするだけで、要約・マインドマップ・AI Q&A・短尺再レンダリングがワークフローを離れずに完了。