Nemotron-3 Nano Omni × BibiGPT

NVIDIA ha rilasciato Nemotron-3 Nano Omni il 2026-04-28 — un modello multimodale MoE Mamba-Transformer 30B-A3B con ~3B parametri attivi per token, che elabora congiuntamente immagine, video, audio e testo. Day-0 su Hugging Face sotto l'Open Model Agreement di NVIDIA con uso commerciale completo. BibiGPT instrada la comprensione video lunga, il Q&A audio long-context e la document intelligence su backbone multimodali di classe Nemotron per i workflow creator e enterprise.

Rilascio · 2026-04-28 30B-A3B MoE multimodale Hugging Face Day-0

Fatti chiave (lettura di 90 secondi)

NVIDIA ha rilasciato Nemotron-3 Nano Omni il 2026-04-28 — un modello multimodale MoE Mamba2-Transformer 30B-A3B con ~3B parametri attivi per token, che elabora congiuntamente immagine, video, audio e testo. Day-0 su Hugging Face sotto l'Open Model Agreement NVIDIA con uso commerciale completo, più OpenRouter e build.nvidia.com NIM. Best-in-class su MMlongbench-Doc, OCRBenchV2, WorldSense e DailyOmni; fino a 9× più throughput multimodale vs alternative. Per gli utenti BibiGPT, Nemotron-3 Nano Omni è la forma del backbone multimodale long-form verso cui instradiamo video lunghi, podcast e Q&A documenti.

Features

Cos'è Nemotron-3 Nano Omni?

Il flagship multimodale del 2026-04-28 di NVIDIA nella famiglia Nemotron 3 Nano — un backbone MoE ibrido Mamba2-Transformer da 30B parametri con 128 esperti, routing top-6 e circa 3B parametri attivi per token. Unifica la comprensione di immagine, video, audio e testo in un unico modello, disponibile Day-0 su Hugging Face.

Backbone multimodale MoE 30B-A3B

31B parametri totali con ~3B attivi per token via routing MoE 128 esperti top-6. L'ibrido combina 23 layer Mamba selective-state-space (efficienza long-context), 23 layer MoE e 6 layer GQA — intelligenza multimodale long-context al costo di inferenza di un 3B attivo.

Immagine · video · audio · testo in un modello

CRADIO v4-H come encoder visivo per immagini e frame video; Parakeet come encoder vocale per input audio. Un modello copre Q&A documenti, riassunto, trascrizione e ragionamento video — niente stack separato per modalità.

Hugging Face Day-0, commercial-friendly

Rilasciato sotto l'Open Model Agreement di NVIDIA con diritti di uso commerciale pieno. Le varianti BF16, FP8 e NVFP4 sono tutte su Hugging Face dal primo giorno (più OpenRouter e build.nvidia.com NIM), rendendo deployment locale e serverless diretti.

Perché conta per gli utenti BibiGPT

BibiGPT è l'assistente AI audio/video per creator e aziende — riassunto video lungo, analisi visiva, document intelligence e generazione di prodotti di conoscenza. Nemotron-3 Nano Omni ha esattamente la forma del backbone multimodale verso cui BibiGPT instrada la comprensione audio/video long-form.

La comprensione video lunga diventa più economica

Un modello 30B-A3B con ~3B parametri attivi gira circa un ordine di grandezza più economico di un 30B denso in inferenza — leader sui benchmark video/audio WorldSense e DailyOmni. BibiGPT può instradare lezioni lunghe, podcast e conferenze su ragionamento di classe Nemotron senza bruciare budget premium.

Document intelligence + audio in una passata

Best-in-class su MMlongbench-Doc e OCRBenchV2, più Parakeet per l'audio. Le pipeline di Q&A documenti, traduzione sottotitoli e trascrizione audio di BibiGPT beneficiano di un singolo modello che gestisce insieme PDF OCR-pesanti, video lunghi e registrazioni di meeting.

Si aprono percorsi edge e self-host

Le varianti FP8 (~32.8 GB) e NVFP4 (~20.9 GB) rendono Nemotron-3 Nano Omni viabile su singola GPU. Per i clienti API enterprise di BibiGPT, significa un'opzione multimodale on-prem per footage sensibile — non solo un flagship hosted-only.

5 cambiamenti chiave (lettura di 90 secondi)

Cambi principali del rilascio Nemotron-3 Nano Omni del 2026-04-28.

  1. 1

    MoE 30B-A3B diventa multimodale

    NVIDIA estende la famiglia Nemotron 3 Nano a un modello unificato immagine/video/audio/testo. 31B parametri totali, ~3B attivi per token via routing MoE 128 esperti top-6 — multimodale long-context al costo di inferenza di un 3B denso.

  2. 2

    Backbone ibrido Mamba2-Transformer

    L'architettura intercala 23 layer Mamba selective-state-space, 23 layer MoE e 6 layer GQA. Mamba porta il grosso del long-context; MoE aggiunge capacità condizionata; GQA fornisce attenzione dove conta di più.

  3. 3

    Encoder visivo e audio unificati

    CRADIO v4-H gestisce immagini e frame video; Parakeet gestisce l'audio. Un modello copre document intelligence, comprensione video, trascrizione e Q&A audio — niente stack separato per modalità.

  4. 4

    Hugging Face Day-0 con licenza commerciale

    Rilasciato sotto l'Open Model Agreement NVIDIA con diritti di uso commerciale pieno. Varianti BF16, FP8 e NVFP4 il primo giorno su Hugging Face, più OpenRouter (free tier) e microservizio NIM build.nvidia.com.

  5. 5

    Quantizzazione per deployment single-GPU

    Variante FP8 ≈ 32.8 GB (8.5 bit effettivi/peso, con KV cache FP8); NVFP4 mixed-precision ≈ 20.9 GB (~4.98 bit/peso). Edge e self-host diventano viabili per le aziende che necessitano di ragionamento multimodale on-prem.

3 scenari tipici per gli utenti BibiGPT

Dove Nemotron-3 Nano Omni rende di più al pubblico creator e enterprise di BibiGPT.

Comprensione video lunga a basso costo in parametri attivi

BibiGPT riassume lezioni di 90 min, podcast e conferenze. Con un MoE 30B-A3B che attiva solo ~3B parametri per token, il ragionamento multimodale di classe Nemotron gira a una frazione del costo di inferenza dense-30B — leader sui benchmark video/audio WorldSense e DailyOmni.

Q&A documenti + audio intelligence in un modello

Nemotron-3 Nano Omni è best-in-class su MMlongbench-Doc e OCRBenchV2, e gestisce l'audio via Parakeet. Le pipeline Q&A documenti, traduzione sottotitoli e trascrizione meeting di BibiGPT si comprimono in una singola passata multimodale.

Multimodale on-prem per i clienti API enterprise

Le varianti FP8 (~32.8 GB) e NVFP4 (~20.9 GB) rendono il deployment single-GPU realistico. Per i clienti API enterprise di BibiGPT con footage sensibile, Nemotron-3 Nano Omni è l'opzione di backbone on-prem — non solo un flagship multimodale hosted-only.

Domande frequenti

Chiedici qualsiasi cosa!

Usa BibiGPT per riassumere video lunghi — supportato da modelli multimodali di classe Nemotron

BibiGPT instrada la comprensione video, audio e documenti long-form attraverso backbone multimodali nella forma di NVIDIA Nemotron-3 Nano Omni. Incolla un link B站 / YouTube / podcast o carica un file — riassunti, mind map, Q&A AI e re-render brevi senza uscire dal flusso.