総 31B パラメータ、128 エキスパート top-6 MoE ルーティングでトークン当たり ~3B アクティブ。A3B = トークン当たり ~3B アクティブ、推論コストは密な 30B より 3B の密モデルに近い。

対応モダリティは？

画像・動画・音声・テキストを 1 モデルで。CRADIO v4-H が画像・動画フレーム、Parakeet が音声を担当。文書 Q&A、要約、転写、動画理解のワークフロー向け。

オープンか？商用利用は？

はい——NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。Hugging Face Day-0 で BF16・FP8・NVFP4、加えて OpenRouter（無料枠）と build.nvidia.com NIM マイクロサービス。

マルチモーダルベンチマークの位置は？

NVIDIA 公表で MMlongbench-Doc・OCRBenchV2 などの文書ベンチでクラス最良、WorldSense・DailyOmni 等の動画/音声ベンチで首位——マルチモーダル用途で同等品比最大 9 倍のスループット。

BibiGPT は Nemotron-3 Nano Omni を使うか？

BibiGPT の動画 AI パイプラインは Anthropic・OpenAI・Google Gemini・NVIDIA ホストバックボーンをタスクに応じてルーティング。低アクティブパラメータコストでの長尺マルチモーダル理解にはまさに Nemotron-3 Nano Omni のような階層が対象——具体的なルーティングは changelog を参照。

Nemotron-3 Nano Omni × BibiGPT

NVIDIA は 2026-04-28 に Nemotron-3 Nano Omni をリリース——30B-A3B Mamba-Transformer MoE マルチモーダルモデル、トークン当たり約 3B のアクティブパラメータで、画像・動画・音声・テキストを統合処理。Hugging Face Day-0 公開、NVIDIA Open Model Agreement の下フル商用利用可。BibiGPT は長尺動画理解、長文脈音声 Q&A、文書インテリジェンスを Nemotron 級マルチモーダルバックボーンにルーティングし、クリエイターとエンタープライズ双方のワークフローを支援します。

BibiGPT で長尺動画を要約

リリース · 2026-04-28 30B-A3B MoE マルチモーダル Hugging Face Day-0

重要ファクト（90 秒で読了）

NVIDIA は 2026-04-28 に Nemotron-3 Nano Omni をリリース——30B-A3B Mamba2-Transformer MoE マルチモーダルモデル、トークン当たり ~3B アクティブで画像・動画・音声・テキストを統合処理。Hugging Face Day-0、NVIDIA Open Model Agreement の下フル商用利用可、OpenRouter と build.nvidia.com NIM にも同時提供。MMlongbench-Doc・OCRBenchV2・WorldSense・DailyOmni でクラス最良、マルチモーダルスループットは同等品比最大 9 倍。BibiGPT ユーザーには長尺動画・ポッドキャスト・文書 Q&A をルーティングするマルチモーダルバックボーンの形。

Nemotron-3 Nano Omni とは？

NVIDIA が 2026-04-28 にリリースした Nemotron 3 Nano ファミリーのマルチモーダル旗艦——30B パラメータの Mamba2-Transformer ハイブリッド MoE バックボーン、128 エキスパート、top-6 ルーティング、トークン当たり約 3B アクティブ。1 モデルで画像・動画・音声・テキスト理解を統合し、Hugging Face で Day-0 利用可。

30B-A3B MoE マルチモーダルバックボーン

総 31B パラメータ、128 エキスパート top-6 MoE ルーティングでトークン当たり ~3B アクティブ。23 層の Mamba 選択的状態空間（長文脈効率）+ 23 層 MoE + 6 層 GQA 注意——長文脈マルチモーダル知能を 3B アクティブの推論コストで。

画像 · 動画 · 音声 · テキストを 1 モデルで

CRADIO v4-H が画像・動画フレームのビジョンエンコーダ、Parakeet が音声エンコーダ。文書 Q&A、要約、転写、動画推論を 1 モデルで——モダリティごとに別スタックを維持しなくてよい。

Hugging Face Day-0、商用フレンドリー

NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。BF16・FP8・NVFP4 全バリアントが初日に Hugging Face 公開（OpenRouter と build.nvidia.com NIM も）、ローカル・サーバーレスデプロイが容易。

BibiGPT ユーザーへの意味

BibiGPT はクリエイターと企業向け AI 音声・動画アシスタント——長尺動画要約、画面分析、文書インテリジェンス、知識アウトプット生成。Nemotron-3 Nano Omni はまさに BibiGPT が長尺音声・動画理解をルーティングするマルチモーダルバックボーンの形。

長尺動画理解の推論が安く

30B-A3B モデルでトークン当たり ~3B アクティブのみ、推論コストは密な 30B のおよそ 1 桁安——WorldSense・DailyOmni 動画/音声ベンチマークで首位。BibiGPT は長尺講義・ポッドキャスト・カンファレンスを Nemotron 級推論にルーティングしながら旗艦予算を燃やさずに済む。

文書インテリジェンス + 音声を 1 パスで

MMlongbench-Doc・OCRBenchV2 でクラス最良、加えて Parakeet で音声。BibiGPT の文書 Q&A、字幕翻訳、会議転写パイプラインが 1 回のマルチモーダル前向きに収まる。

エッジ・セルフホスト経路が開く

FP8 (~32.8 GB) と NVFP4 (~20.9 GB) で単一 GPU デプロイが現実的に。BibiGPT のエンタープライズ API 顧客にとって、Nemotron-3 Nano Omni はオンプレミスのマルチモーダル選択肢——クラウド限定の旗艦だけではない。

5 つの主要変更（90 秒で読了）

Nemotron-3 Nano Omni（2026-04-28 リリース）の要点。

1

30B-A3B MoE がマルチモーダルへ

NVIDIA は Nemotron 3 Nano ファミリーを画像/動画/音声/テキスト統合モデルへ拡張。総 31B、トークン当たり ~3B アクティブを 128 エキスパート top-6 MoE で実現——長文脈マルチモーダルを 3B 密相当の推論コストで。
2

Mamba2-Transformer ハイブリッドバックボーン

構造は 23 層 Mamba 選択的状態空間、23 層 MoE、6 層 GQA 注意を交互配置。Mamba が長文脈の重労働、MoE が条件付き容量、GQA が最重要箇所の注意を担う。
3

視覚・音声エンコーダ統合

CRADIO v4-H が画像・動画フレーム、Parakeet が音声を担当。1 モデルで文書インテリジェンス、動画理解、転写、音声 Q&A——モダリティごとに別スタック不要。
4

Hugging Face Day-0 + 商用ライセンス

NVIDIA Open Model Agreement の下リリース、フル商用利用権付き。BF16・FP8・NVFP4 が初日に Hugging Face 公開、加えて OpenRouter（無料枠）と build.nvidia.com NIM マイクロサービス。
5

量子化で単一 GPU デプロイ実現

FP8 変体 ≈ 32.8 GB（重み当たり 8.5 ビット、FP8 KV キャッシュ付き）、NVFP4 混合精度 ≈ 20.9 GB（~4.98 ビット/重み）。オンプレミスマルチモーダル推論を必要とする企業に自前デプロイ経路が開く。

BibiGPT ユーザーの 3 つの典型シナリオ

Nemotron-3 Nano Omni が BibiGPT のクリエイター・企業ユーザーに最も効く領域。

低アクティブパラメータコストでの長尺動画理解

BibiGPT が 90 分の講義、ポッドキャスト、カンファレンスを要約。30B-A3B MoE のトークン当たり ~3B アクティブで、推論コストは密な 30B の数分の一——WorldSense・DailyOmni 動画/音声ベンチで首位。

文書 Q&A + 音声インテリジェンスを 1 モデルで

Nemotron-3 Nano Omni は MMlongbench-Doc・OCRBenchV2 でクラス最良、Parakeet で音声も処理。BibiGPT の文書 Q&A、字幕翻訳、会議転写パイプラインが 1 回のマルチモーダル前向きに収束。

エンタープライズ API 顧客向けオンプレミスマルチモーダル

FP8 (~32.8 GB) と NVFP4 (~20.9 GB) で単一 GPU デプロイが現実的に。機密素材を扱う BibiGPT のエンタープライズ API 顧客にとって、Nemotron-3 Nano Omni はオンプレミスバックボーン選択肢——クラウド限定旗艦だけではない。

クリエイター・学生・研究者に愛用されています

動画をテキスト化するために、毎日 BibiGPT が選ばれている理由。

全世界 50,000 人以上のユーザーが利用中

★★★★★

“リンクを貼るだけで数秒でクリーンな字幕テキストが手に入り、毎週何時間もの書き起こし作業が不要になりました。”

Maya R.

コンテンツクリエイター · ショート動画を再編集

★★★★★

“文字起こしをエクスポートできるので、動画を何度も止めずに自分のペースで新しい単語を復習できます。”

Daniel K.

語学学習者 · 生の動画で学習

★★★★★

“タイムスタンプ付きの正確なテキストをそのまま引用できます。いつの間にか毎日のワークフローの一部になりました。”

Priya S.

研究者 · 公開講演を引用

よくある質問

ご質問はありますか？お気軽にどうぞ！

BibiGPT で長尺動画を要約——裏には Nemotron 級マルチモーダル

BibiGPT は長尺動画・音声・文書理解を NVIDIA Nemotron-3 Nano Omni のようなマルチモーダルバックボーンにルーティング。B站 / YouTube / ポッドキャストリンクを貼るかファイルをアップロードするだけで、要約・マインドマップ・AI Q&A・短尺再レンダリングがワークフローを離れずに完了。

BibiGPT を無料で試す

Nemotron-3 Nano Omni × BibiGPT