阿里两款千问语音新模型齐发:动物也能“原声”说人话了!

奈飞网 4 0

12月24日,阿里巴巴集团对其语音合成技术产品线进行了重要更新,推出了两款全新的语音生成工具。

此次发布的新工具包括“音色创造”与“音色克隆”两大功能模块。官方信息显示,新版本在语音生成的自然度、稳定性和效率方面均有显著提升,旨在推动该技术在有声读物、广播剧、影视配音等专业场景的广泛应用。

其中,音色创造功能允许用户通过文本描述,自定义生成具有特定特征的语音音色。在多项行业基准测试中,该工具在指令理解的准确性与生成效果上,表现优于当前市场同类产品。

阿里两款千问语音新模型齐发:动物也能“原声”说人话了!-第1张图片-奈飞网

另一项音色克隆功能,则专注于对现有声音的高度还原。据称,该功能仅需采集约3秒的原始语音样本,即可生成模仿该音色的合成语音。在多语言测试中,其在语音准确性与稳定性方面展现出优势,平均词错误率指标优于部分国际主流方案。

该语音克隆工具支持生成包括英语、日语、韩语、法语、德语等在内的九种语言语音。一个引人注目的特性是,它甚至能处理动物声音样本,并基于此生成具有相应特色的合成语音。

目前,这两项功能的快速响应版本已在阿里云计算平台上线,可满足大规模商业应用的需求。该语音合成产品系列现已支持超过50种音色、10种主要语言及包括闽南语、粤语、四川话在内的8种地方方言,力求在合成语音中保留地方口音的特色与韵味。

抱歉,评论功能暂时关闭!