Nemotron-3 Nano Omni × BibiGPT

NVIDIA 在 2026-04-28 发布 Nemotron-3 Nano Omni——30B-A3B Mamba-Transformer MoE 多模态模型,每 token 仅约 3B 激活参数,统一处理图像、视频、音频与文本。Hugging Face Day-0 上线,遵循 NVIDIA Open Model Agreement,支持完全商用。BibiGPT 把长视频理解、长上下文音频问答、文档智能路由到 Nemotron 级多模态骨干,服务创作者与企业工作流。

发布 · 2026-04-28 30B-A3B MoE 多模态 Hugging Face Day-0

核心事实(90 秒速读)

NVIDIA 在 2026-04-28 发布 Nemotron-3 Nano Omni——30B-A3B Mamba2-Transformer MoE 多模态模型,每 token 约 3B 激活,统一处理图像、视频、音频、文本。Hugging Face Day-0 上线,遵循 NVIDIA Open Model Agreement 支持完全商用,并同步登陆 OpenRouter 与 build.nvidia.com NIM。MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni 业内最佳,多模态吞吐相比同类最高提升 9 倍。对 BibiGPT 用户而言,这就是把长视频、播客、文档问答路由过去的多模态骨干形态。

Features

Nemotron-3 Nano Omni 是什么?

NVIDIA 2026-04-28 发布、Nemotron 3 Nano 家族的多模态旗舰——30B 参数 Mamba2-Transformer 混合 MoE 骨干,128 个专家、top-6 路由、每 token 约 3B 激活。一个模型统一处理图像、视频、音频、文本,Hugging Face Day-0 直接可用。

30B-A3B MoE 多模态骨干

总参数 31B,通过 128 专家 top-6 MoE 路由实现每 token ~3B 激活。23 层 Mamba 状态空间(长上下文)+ 23 层 MoE + 6 层 GQA 注意力——长上下文多模态智能跑在 3B 激活推理成本上。

图像 · 视频 · 音频 · 文本一模型搞定

CRADIO v4-H 作为视觉编码器处理图像和视频帧;Parakeet 作为语音编码器处理音频。一个模型覆盖文档问答、总结、转写、视频推理——不再为每个模态单独维护一套栈。

Hugging Face Day-0 + 商用友好

在 NVIDIA Open Model Agreement 下发布,享有完整商用权。BF16、FP8、NVFP4 三个量化变体首日同步登陆 Hugging Face(外加 OpenRouter 与 build.nvidia.com NIM),本地部署与 serverless 都很顺畅。

对 BibiGPT 用户意味着什么

BibiGPT 是面向创作者与企业的 AI 音视频助理——长视频总结、画面分析、文档智能、知识产物生成。Nemotron-3 Nano Omni 正是 BibiGPT 长视频与音频理解会路由到的多模态骨干形态。

长视频理解推理变便宜

30B-A3B 模型每 token 仅约 3B 激活,推理成本大致是稠密 30B 的十分之一——而 WorldSense 与 DailyOmni 视频/音频榜单领先。BibiGPT 把长讲座、播客、会议路由到 Nemotron 级推理时不再烧旗舰预算。

文档智能 + 音频一次搞定

MMlongbench-Doc、OCRBenchV2 业内最佳,且通过 Parakeet 同时处理音频。BibiGPT 的文档问答、字幕翻译、会议转写流水线被压缩到一次多模态前向。

边缘与自部署成为可能

FP8 (~32.8 GB) 与 NVFP4 (~20.9 GB) 让单卡部署可行。对 BibiGPT 的企业 API 客户,Nemotron-3 Nano Omni 提供了一条本地多模态路径——而不是只有云端旗舰一种选择。

5 条关键变化(90 秒速读)

Nemotron-3 Nano Omni(2026-04-28 发布)的关键改变。

  1. 1

    Nemotron 3 Nano 上探多模态

    NVIDIA 把 Nemotron 3 Nano 家族延伸到统一的图像/视频/音频/文本模型。31B 总参数、~3B 激活,通过 128 专家 top-6 MoE 路由——长上下文多模态跑在稠密 3B 推理成本上。

  2. 2

    Mamba2-Transformer 混合骨干

    结构交错 23 层 Mamba 状态空间、23 层 MoE、6 层 GQA 注意力。Mamba 担当长上下文重活;MoE 提供条件式容量;GQA 在最关键的位置提供注意力。

  3. 3

    视觉与音频编码器统一

    CRADIO v4-H 处理图像与视频帧;Parakeet 处理音频。一个模型覆盖文档智能、视频理解、转写与音频问答——不再为每个模态单独维护一套栈。

  4. 4

    Hugging Face Day-0 + 商用许可

    在 NVIDIA Open Model Agreement 下发布,享有完整商用权。BF16、FP8、NVFP4 同步登陆 Hugging Face,外加 OpenRouter(免费档)与 build.nvidia.com NIM 微服务。

  5. 5

    量化让单卡部署成为可能

    FP8 变体 ≈ 32.8 GB(每权重 8.5 比特,配 FP8 KV cache);NVFP4 混精度 ≈ 20.9 GB(约 4.98 比特/权重)。需要本地多模态推理的企业可以走自部署路径。

BibiGPT 用户的 3 个典型场景

Nemotron-3 Nano Omni 对 BibiGPT 创作者与企业用户最有价值的场景。

低激活成本下做长视频理解

BibiGPT 总结 90 分钟讲座、播客、会议。30B-A3B MoE 每 token 仅激活约 3B,推理成本是稠密 30B 的几分之一——同时在 WorldSense 与 DailyOmni 视频/音频榜单领先。

文档问答 + 音频智能合一

MMlongbench-Doc、OCRBenchV2 业内最佳,加上 Parakeet 音频。BibiGPT 的文档问答、字幕翻译、会议转写流水线压缩到一次多模态前向。

企业 API 客户的本地多模态

FP8 (~32.8 GB) 与 NVFP4 (~20.9 GB) 让单卡部署可行。对持有敏感素材的 BibiGPT 企业客户,Nemotron-3 Nano Omni 提供了一条本地多模态骨干——而不是只有云端旗舰。

常见问题解答

有问题?问我们!

用 BibiGPT 总结长视频——背后是 Nemotron 级多模态模型

BibiGPT 把长视频、音频、文档理解路由到 NVIDIA Nemotron-3 Nano Omni 这种多模态骨干。粘贴 B站 / YouTube / 播客链接或上传文件,就能拿到总结、思维导图、AI 追问与短视频改写——无需切工具。