珠峰语音生成技术:5秒“克隆”声音,10秒定制音频

AIGC
后台-插件-广告管理-内容页头部广告(手机)

今天至11月2日,喜马拉雅亮相杭州2023云栖大会,展示其自研的语音技术最新成果,包括珠峰语音生成式大模型和第二代智能语音交互系统。

今年,云栖大会的主题为“计算,为了无法计算的价值”,并设有两场主论坛,邀请1000多位相关业界人士,带来500余场分享与互动,以多种方式促进不同人群对云上创新的理解。

珠峰语音生成式大模型,具备快速实现语音音色和风格定制的能力,支持丰富场景下的音色实时转换,为声音赋予创造性的“变声”能力,宛如给声音涂上不同的“画皮”。此前,珠峰实验室团队已通过AIGC方式创作超过3.7万部有声书专辑,而AIGC作品的每日播放时长已超过250万小时。

珠峰实验室负责人卢恒介绍,在音色定制方面,模型可实现5秒内“极速克隆”声音,基本音色相似度90%;10秒内快速生成定制音频。同时,模型可应用于语音内容生成、口语对话、语音音色实时转换、说话风格迁移、语音到语音跨语种翻译、说话人匿名化等不同场景。未来,这项技术在短视频创作、数字人配音、人机交互对话、名人IP复刻等领域潜力巨大。

第二代智能语音交互系统,主要以喜马拉雅儿童形象代言人“波波”为中心,增强其自然连贯对话能力,为家庭亲子提供陪伴对话功能。

珠峰实验室之前运用AIGC技术还原已故评书大师单田芳先生的声音,并使用他的AI合成音来全新演绎经典之作。目前,AIGC制作的“单田芳声音重现”系列专辑已突破100张,在平台总播放量超1亿次。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。