Nemotron-3 Nano Omni × BibiGPT

NVIDIA a publié Nemotron-3 Nano Omni le 2026-04-28 — un modèle multimodal MoE Mamba-Transformer 30B-A3B avec ~3B paramètres actifs par token, qui traite conjointement image, vidéo, audio et texte. Day-0 sur Hugging Face sous l'Open Model Agreement de NVIDIA avec usage commercial complet. BibiGPT route la compréhension vidéo longue, le Q&A audio long-contexte et le document intelligence sur des backbones multimodaux de classe Nemotron pour les workflows créateur et entreprise.

Sortie · 2026-04-28 30B-A3B MoE multimodal Hugging Face Day-0

Faits clés (lecture 90 secondes)

NVIDIA a publié Nemotron-3 Nano Omni le 2026-04-28 — un modèle multimodal MoE Mamba2-Transformer 30B-A3B avec ~3B paramètres actifs par token, traitant conjointement image, vidéo, audio et texte. Day-0 sur Hugging Face sous l'Open Model Agreement NVIDIA avec usage commercial complet, plus OpenRouter et build.nvidia.com NIM. Best-in-class sur MMlongbench-Doc, OCRBenchV2, WorldSense et DailyOmni ; jusqu'à 9× plus de débit multimodal vs alternatives. Pour les utilisateurs BibiGPT, Nemotron-3 Nano Omni est la forme de backbone multimodal long format vers laquelle on route vidéos longues, podcasts et Q&A document.

Features

Qu'est-ce que Nemotron-3 Nano Omni ?

Le flagship multimodal du 2026-04-28 de NVIDIA dans la famille Nemotron 3 Nano — un backbone MoE hybride Mamba2-Transformer de 30B paramètres avec 128 experts, routage top-6 et environ 3B paramètres actifs par token. Unifie compréhension image, vidéo, audio et texte dans un seul modèle, disponible Day-0 sur Hugging Face.

Backbone multimodal MoE 30B-A3B

31B paramètres totaux avec ~3B actifs par token via routage MoE 128 experts top-6. L'hybride combine 23 couches Mamba selective-state-space (efficacité long contexte), 23 couches MoE et 6 couches GQA — intelligence multimodale long contexte au coût d'inférence d'un 3B actif.

Image · vidéo · audio · texte dans un seul modèle

CRADIO v4-H comme encodeur visuel pour images et frames vidéo ; Parakeet comme encodeur de parole pour les entrées audio. Un seul modèle gère Q&A document, résumé, transcription et raisonnement vidéo — pas de stack séparé par modalité.

Hugging Face Day-0, commercial-friendly

Publié sous l'Open Model Agreement NVIDIA avec droits d'usage commercial complet. Variantes BF16, FP8 et NVFP4 toutes disponibles dès le premier jour sur Hugging Face (plus OpenRouter et build.nvidia.com NIM), rendant déploiement local et serverless directs.

Pourquoi c'est important pour les utilisateurs BibiGPT

BibiGPT est l'assistant IA audio/vidéo pour créateurs et entreprises — résumé vidéo long, analyse visuelle, document intelligence et génération d'assets de connaissance. Nemotron-3 Nano Omni a exactement la forme du backbone multimodal vers lequel BibiGPT route la compréhension audio/vidéo long format.

La compréhension vidéo longue devient moins chère

Un modèle 30B-A3B avec ~3B paramètres actifs tourne environ un ordre de grandeur moins cher qu'un dense 30B en inférence — leader sur les benchmarks vidéo/audio WorldSense et DailyOmni. BibiGPT peut router conférences, podcasts et longues vidéos via du raisonnement de classe Nemotron sans brûler le budget premium.

Document intelligence + audio en un seul passage

Best-in-class sur MMlongbench-Doc et OCRBenchV2, plus Parakeet pour l'audio. Les pipelines de Q&A document, traduction de sous-titres et transcription audio de BibiGPT bénéficient d'un seul modèle gérant ensemble PDFs OCR-lourds, vidéos longues et enregistrements de réunion.

Voies edge et self-host s'ouvrent

Les variantes FP8 (~32.8 GB) et NVFP4 (~20.9 GB) rendent Nemotron-3 Nano Omni viable sur un seul GPU. Pour les clients API entreprise de BibiGPT, cela signifie une option multimodale on-prem pour la footage sensible — pas seulement un flagship hébergé.

5 changements clés (lecture 90 secondes)

Évolutions clés de la sortie Nemotron-3 Nano Omni du 2026-04-28.

  1. 1

    Le MoE 30B-A3B passe au multimodal

    NVIDIA étend la famille Nemotron 3 Nano à un modèle image/vidéo/audio/texte unifié. 31B paramètres totaux, ~3B actifs par token via routage MoE 128 experts top-6 — multimodal long contexte au coût d'inférence d'un 3B dense.

  2. 2

    Backbone hybride Mamba2-Transformer

    L'architecture entrelace 23 couches Mamba selective-state-space, 23 couches MoE et 6 couches grouped-query-attention. Mamba porte le gros du long contexte ; MoE ajoute la capacité conditionnelle ; GQA fournit l'attention où elle compte le plus.

  3. 3

    Encodeurs vision et audio unifiés

    CRADIO v4-H gère images et frames vidéo ; Parakeet gère l'audio. Un seul modèle couvre document intelligence, compréhension vidéo, transcription et Q&A audio — pas de stack séparé par modalité.

  4. 4

    Hugging Face Day-0 avec licence commerciale

    Publié sous l'Open Model Agreement NVIDIA avec droits d'usage commercial complet. Variantes BF16, FP8 et NVFP4 le premier jour sur Hugging Face, plus OpenRouter (free tier) et microservice NIM build.nvidia.com.

  5. 5

    Quantification pour déploiement single-GPU

    Variante FP8 ≈ 32.8 GB (8.5 bits effectifs/poids, avec cache KV FP8) ; NVFP4 mixed-precision ≈ 20.9 GB (~4.98 bits/poids). Edge et self-host deviennent viables pour les entreprises ayant besoin de raisonnement multimodal on-prem.

3 scénarios typiques pour les utilisateurs BibiGPT

Là où Nemotron-3 Nano Omni paie le plus pour le public créateur et entreprise de BibiGPT.

Compréhension vidéo longue à faible coût en paramètres actifs

BibiGPT résume conférences de 90 min, podcasts et colloques. Avec un MoE 30B-A3B qui n'active que ~3B paramètres par token, le raisonnement multimodal de classe Nemotron tourne à une fraction du coût d'inférence dense-30B — leader sur les benchmarks vidéo/audio WorldSense et DailyOmni.

Q&A document + audio intelligence dans un seul modèle

Nemotron-3 Nano Omni est best-in-class sur MMlongbench-Doc et OCRBenchV2, et gère l'audio via Parakeet. Les pipelines Q&A document, traduction de sous-titres et transcription de réunion de BibiGPT s'effondrent en un seul passage multimodal.

Multimodal on-prem pour les clients API entreprise

Les variantes FP8 (~32.8 GB) et NVFP4 (~20.9 GB) rendent le déploiement single-GPU réaliste. Pour les clients API entreprise de BibiGPT avec footage sensible, Nemotron-3 Nano Omni est l'option de backbone on-prem — pas seulement un flagship multimodal hébergé.

Questions fréquentes

Posez-nous vos questions !

Utilisez BibiGPT pour résumer les vidéos longues — adossé à des modèles multimodaux de classe Nemotron

BibiGPT route la compréhension vidéo, audio et document long format via des backbones multimodaux de la forme de NVIDIA Nemotron-3 Nano Omni. Collez un lien B站 / YouTube / podcast ou téléversez un fichier — résumés, mind maps, Q&A IA et re-renders courts sans quitter le workflow.