阶跃StepAudio 2.5 TTS登顶全球语音生成前三
语音竞技场登顶:阶跃StepAudio 2.5 TTS凭什么拿下全球第三?
5月9日,全球权威TTS评测榜单Artificial Analysis Speech Arena Leaderboard迎来重磅更新——来自中国的阶跃星辰语音生成模型StepAudio 2.5 TTS强势跻身全球前三,成为当前榜单中排名最高的中国大模型。这一成绩不仅刷新了国产语音模型的全球排名记录,更标志着中国企业在语音生成这一核心技术赛道上,已真正具备与国际顶尖玩家同台竞技的实力。
盲测Elo机制:用耳朵投票的“真实力”检验
与以往依赖实验室指标(如MOS、CER等)的评测方式不同,Artificial Analysis的Speech Arena采用了一种更贴近用户实际体验的评估机制——盲测Elo评分系统。在该机制下,用户在不了解模型身份的前提下,对同一文本生成的两段语音进行听感对比,判断哪一段更自然、更流畅、更接近真人表达。这种“去参数化”“去指标化”的评测方式,直接反映了模型在真实应用场景中的表现。
测试覆盖客户服务、知识分享、数字助手、娱乐等多个高频使用场景,意味着StepAudio 2.5 TTS的领先并非停留在理论层面,而是在用户日常交互中展现出更强的实用性和竞争力。换句话说,它的“好听”不是工程师眼中的好听,而是大众耳朵认可的好听。
全链路布局:从生成到交互的语音生态闭环
此次StepAudio 2.5系列的发布并非单点突破,而是一次系统性升级。阶跃星辰一口气推出了三款核心模型:
- StepAudio 2.5 TTS:专注高自然度语音生成,主打情感细腻、语调自然的合成效果;
- StepAudio 2.5 ASR:实现高速高精度的语音识别,为前端输入提供坚实支撑;
- StepAudio 2.5 Realtime:聚焦实时语音交互,打造具备“活人感”的AI聊天伙伴。
其中,StepAudio 2.5 Realtime尤为引人关注。它不仅支持千万人设自定义,还具备顶级的副语言能力(如语气词、停顿、语调变化),并强调“智商+情商”双维度优化,目标是让用户在与AI对话时感受到“温度、灵魂与态度”。这种从“能说话”到“会说话”的跃迁,正是当前AI语音交互迈向人性化的关键一步。
值得一提的是,阶跃在语音领域的技术积累早已显现。其开源模型Step Audio R1.1已连续4个月霸榜Artificial Analysis Speech Reasoning榜单,位列全球第一;而全球首个迭代式情绪风格语音编辑模型Step Audio EditX,仅需3秒音色样本即可实现高质量复刻,在zero-shot TTS任务中表现甚至超越部分闭源商业模型。这些技术沉淀,为StepAudio 2.5系列的成功奠定了坚实基础。
从实验室到车舱:规模化落地的商业验证
技术领先之外,阶跃语音模型的商业化进程同样迅速。目前,其语音解决方案已在多个核心场景实现规模化落地:
- 在智能汽车领域,阶跃率先实现端到端语音大模型量产上车,搭载于吉利银河M9;
- 为“整车智能体超级Eva”提供语音交互能力,首发搭载极氪8X并已正式上市。
这意味着,用户在实际驾驶场景中,已经可以体验到由StepAudio驱动的、具备高自然度和强交互性的AI语音助手。从“听得清”到“说得像”,再到“聊得自然”,阶跃正在打通AI语音从技术到产品的完整链条。
语音入口之争:中国力量正在崛起
AI语音模型一直被视作人机交互的核心入口。OpenAI、Google等全球科技巨头长期投入巨资研发,试图抢占这一战略高地。而此次StepAudio 2.5 TTS登顶AA榜单全球前三,不仅是一次技术突破,更是一次产业信心的提振——中国企业在这一关键赛道上,不再只是追随者,而是有能力定义标准、引领创新的参与者。
未来,随着多模态交互、情感计算、个性化人设等技术的不断融合,语音AI将不再局限于“工具”角色,而可能成为陪伴、教育、服务等场景中的“数字伙伴”。阶跃星辰通过StepAudio系列模型的持续迭代,正在为这一愿景铺路。
标签: AI语音生成 TTS技术 阶跃星辰 语音交互 智能汽车