Cohere Transcribe 03-2026 × BibiGPT

Cohere 在 2026 年 4 月开源 Transcribe 03-2026——20 亿参数的语音识别 (ASR) 模型,音频进文本出,14 语言开箱即用,ONNX 与 Hugging Face 同日上线。BibiGPT 已经吃 YouTube/B 站/播客音频——Cohere Transcribe 是让我们多语种管线降本扩容的开源后端之一。

发布 · 2026-04 20 亿参数 · 14 语 ONNX + HF

核心事实(90 秒速读)

Cohere 在 2026-04 开源 Transcribe 03-2026。20 亿参数的语音识别 (ASR) 模型,音频进文本出,14 语言开箱即用,ONNX 与 Hugging Face 检查点同日上线。对 BibiGPT 用户而言,它是多语种转录管线可路由到的开源 ASR 后端之一。

Features

Cohere Transcribe 03-2026 是什么?

Cohere 首个开源 ASR:20 亿参数、音频进文本出、14 语言、ONNX + Hugging Face 同日上线。

开权重 · 20 亿参数

体量足够小可在单卡现代 GPU 跑,且方便微调。Cohere 开源选择让它既能用于托管 API,也能用于自托管管线。

14 语言开箱即用

首发即多语支持——覆盖主要欧洲语言加普通话、日语、韩语等,无需为每种语言换模型。

ONNX + Hugging Face 同日

两个 runtime 同日上线,工程师可任选托管推理、浏览器侧 ONNX 或 Serverless Hugging Face 端点。

对 BibiGPT 用户意味着什么

BibiGPT 核心能力是把音频变结构化笔记。Cohere Transcribe 这种开源 ASR 后端让底层管线更经济、更多语种、更隐私。

更便宜的批量转录

开权重意味着每分钟成本接近 GPU 时间而非厂商定价。对转录长播客或课程目录的用户,边际成本至关重要。

更广的语言覆盖

Cohere Transcribe 14 语言与 BibiGPT 5 语 UI(中/英/日/韩/繁体)天然契合,多语种创作者首遍转录更干净。

隐私友好的自托管

敏感音频(法律通话、医疗访谈、企业会议)可以留在私有部署内,不必绕道第三方转录厂商。

5 条关键变化(90 秒速读)

Cohere Transcribe 03-2026 发布的关键改变。

  1. 1

    开权重 · MIT 精神

    Cohere 选择以宽松开权重发布,工程师可自托管或微调——是商业 ASR 闭 API 常态的有意义突破。

  2. 2

    20 亿参数 · 单卡可跑

    20 亿参数体量小到能在单卡现代 GPU 跑。推理成本接近 GPU 时间而非厂商每分钟定价。

  3. 3

    14 语言首日支持

    首发多语——覆盖主要欧洲语言加普通话、日语、韩语等,无需每种语言一个模型。

  4. 4

    ONNX + Hugging Face 同日

    两个 runtime 同日上线。工程师可任选托管推理、浏览器侧 ONNX 或 Serverless Hugging Face 端点,无需等待。

  5. 5

    与开源 ASR 生态配合

    加入 Whisper、Distil-Whisper、NVIDIA Parakeet 等开源 ASR 家族——给工程团队真正的生产级转录管线选择。

BibiGPT 用户的 3 个典型场景

基于真实 BibiGPT 用户画像,全部今日可落地。

多语种创作者——首遍转录

在中/英/日/韩/繁体发布的创作者需要 AI 总结之前更干净的首遍转录。带 14 语支持的开源 ASR 可减少非英语音频中人名、产品术语的幻觉。

批量转录——成本敏感

团队大规模转录长播客备份、课程录像或合规音频时,每分钟成本越低越好。开源 ASR 把成本下限拉到 GPU 时间而非厂商利润。

隐私敏感转录

法律访谈、医疗录音、内部公司会议不能送给第三方转录 API。开权重发布让 on-prem 或 VPC-only 部署成为可能,且不牺牲质量。

常见问题解答

有问题?问我们!

用 BibiGPT 做生产级转录——开源后端就在其中

BibiGPT 自动在厂商和开源 ASR 模型之间路由,无需自己集成权重。贴一个 YouTube/B 站/播客 URL,就能拿到转录加 5 语 AI 总结。