nh1

阶跃 StepAudio 2.5 ASR 发布,综合性能跻身行业第一梯队,多项指标刷新纪录

栏目:行业   作者:赵奢    发布时间:2026-04-24 13:04   阅读量:6027   会员投稿

4 月 24 日,阶跃发布新一代自动语音识别模型 StepAudio 2.5 ASR。据介绍,该模型率先将大语言模型推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。

具体来看,StepAudio 2.5 ASR 基于 ASR+MTP-5 深度融合架构,将多 Token 预测技术移植至语音识别领域,使模型能够一次预测多个候选 Token 并完成并行验证,打破了传统自回归机制逐 Token 输出的效率瓶颈。实测数据显示,该模型推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本下降 80%,5 分钟左右的音视频几乎可实现即时转写。

在转写精度方面,StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。针对长音频处理,该模型复用 LLM 原生的 32K 上下文窗口,支持单次完整转写最长 30 分钟的音频,有别于行业普遍采用的“切片-转写-拼接”方案,有效避免了上下文断裂与后段精度衰减的问题。

从行业趋势来看,随着语音识别技术向更多高频场景渗透,如何在保持高精度的同时降低推理成本、提升长音频处理能力,正成为相关产品竞争的核心方向。目前,StepAudio 2.5 ASR 已全量上线「阶跃星辰开放平台」和 Step Plan,可供开发者及行业用户使用。值得一提的是,阶跃近日同步推出了新一代语音生成模型 StepAudio 2.5 TTS,在表现力全面提升的同时,也进一步降低了使用门槛。

ad