Cohere Transcribe 03-2026 × BibiGPT

Cohere 在 2026 年 4 月開源 Transcribe 03-2026——20 億參數的語音識別 (ASR) 模型,音訊進文字出,14 語言開箱即用,ONNX 與 Hugging Face 同日上線。BibiGPT 已經吃 YouTube/B 站/Podcast 音訊——Cohere Transcribe 是讓我們多語種管線降本擴容的開源後端之一。

發布 · 2026-04 20 億參數 · 14 語 ONNX + HF

核心事實(90 秒速讀)

Cohere 在 2026-04 開源 Transcribe 03-2026。20 億參數的語音識別 (ASR) 模型,音訊進文字出,14 語言開箱即用,ONNX 與 Hugging Face 檢查點同日上線。對 BibiGPT 用戶而言,它是多語種轉錄管線可路由到的開源 ASR 後端之一。

Features

Cohere Transcribe 03-2026 是什麼?

Cohere 首個開源 ASR:20 億參數、音訊進文字出、14 語言、ONNX + Hugging Face 同日上線。

開權重 · 20 億參數

體量足夠小可在單卡現代 GPU 跑,且方便微調。Cohere 開源選擇讓它既能用於託管 API,也能用於自託管管線。

14 語言開箱即用

首發即多語支援——涵蓋主要歐洲語言加普通話、日語、韓語等,無需為每種語言換模型。

ONNX + Hugging Face 同日

兩個 runtime 同日上線,工程師可任選託管推理、瀏覽器端 ONNX 或 Serverless Hugging Face 端點。

對 BibiGPT 用戶意味著什麼

BibiGPT 核心能力是把音訊變結構化筆記。Cohere Transcribe 這種開源 ASR 後端讓底層管線更經濟、更多語種、更隱私。

更便宜的批次轉錄

開權重意味著每分鐘成本接近 GPU 時間而非廠商定價。對轉錄長 Podcast 或課程目錄的用戶,邊際成本至關重要。

更廣的語言涵蓋

Cohere Transcribe 14 語言與 BibiGPT 5 語 UI(中/英/日/韓/繁體)天然契合,多語種創作者首遍轉錄更乾淨。

隱私友好的自託管

敏感音訊(法律通話、醫療訪談、企業會議)可以留在私有部署內,不必繞道第三方轉錄廠商。

5 條關鍵變化(90 秒速讀)

Cohere Transcribe 03-2026 發布的關鍵改變。

  1. 1

    開權重 · MIT 精神

    Cohere 選擇以寬鬆開權重發布,工程師可自託管或微調——是商業 ASR 閉 API 常態的有意義突破。

  2. 2

    20 億參數 · 單卡可跑

    20 億參數體量小到能在單卡現代 GPU 跑。推理成本接近 GPU 時間而非廠商每分鐘定價。

  3. 3

    14 語言首日支援

    首發多語——涵蓋主要歐洲語言加普通話、日語、韓語等,無需每種語言一個模型。

  4. 4

    ONNX + Hugging Face 同日

    兩個 runtime 同日上線。工程師可任選託管推理、瀏覽器端 ONNX 或 Serverless Hugging Face 端點,無需等待。

  5. 5

    與開源 ASR 生態配合

    加入 Whisper、Distil-Whisper、NVIDIA Parakeet 等開源 ASR 家族——給工程團隊真正的生產級轉錄管線選擇。

BibiGPT 用戶的 3 個典型場景

基於真實 BibiGPT 用戶畫像,全部今日可落地。

多語種創作者——首遍轉錄

在中/英/日/韓/繁體發布的創作者需要 AI 總結之前更乾淨的首遍轉錄。帶 14 語支援的開源 ASR 可減少非英語音訊中人名、產品術語的幻覺。

批次轉錄——成本敏感

團隊大規模轉錄長 Podcast 備份、課程錄影或合規音訊時,每分鐘成本越低越好。開源 ASR 把成本下限拉到 GPU 時間而非廠商利潤。

隱私敏感轉錄

法律訪談、醫療錄音、內部公司會議不能送給第三方轉錄 API。開權重發布讓 on-prem 或 VPC-only 部署成為可能,且不犧牲品質。

常見問題

歡迎提問!

用 BibiGPT 做生產級轉錄——開源後端就在其中

BibiGPT 自動在廠商和開源 ASR 模型之間路由,無需自己集成權重。貼一個 YouTube/B 站/Podcast URL,就能拿到轉錄加 5 語 AI 總結。