《脉
4 月 24 日,阶跃发布新一代自动语音识别模型 StepAudio 2.5 ASR。据介绍,该模型率先将大语言模型推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。
具体来看,StepAudio 2.5 ASR 基于 ASR+MTP-5 深度融合架构,将多 Token 预测技术移植至语音识别领域,使模型能够一次预测多个候选 Token 并完成并行验证,打破了传统自回归机制逐 Token 输出的效率瓶颈。实测数据显示,该模型推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本下降 80%,5 分钟左右的音视频几乎可实现即时转写。
在转写精度方面,StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。针对长音频处理,该模型复用 LLM 原生的 32K 上下文窗口,支持单次完整转写最长 30 分钟的音频,有别于行业普遍采用的“切片-转写-拼接”方案,有效避免了上下文断裂与后段精度衰减的问题。
从行业趋势来看,随着语音识别技术向更多高频场景渗透,如何在保持高精度的同时降低推理成本、提升长音频处理能力,正成为相关产品竞争的核心方向。目前,StepAudio 2.5 ASR 已全量上线「阶跃星辰开放平台」和 Step Plan,可供开发者及行业用户使用。值得一提的是,阶跃近日同步推出了新一代语音生成模型 StepAudio 2.5 TTS,在表现力全面提升的同时,也进一步降低了使用门槛。
《脉
文/中贸圣佳国际拍卖有限公司中国书画资深
从生死奇迹到细胞密码:辅酶Q10如何守护
2025年6月7日至8日,北京启石十周年
春风送暖,共话合作。2026年4月21日
4月22日,杭州人民口腔医院集团(简称杭
童乐互娱——商业型文化传媒公司从传统影视
近日,逛便利店、冲下午茶、约友小聚时,不
近日,马来西亚英迪国际大学与中国唱片集团
