现在TTS(Text to Speech)的技术已经很成熟了,各大视频平台都充斥了相似的声音,而各大导航平台也把明星的声音作为噱头。作为普通人,我们是否可以把自己的声音也记录下来,让AI利用我们的声音朗读甚至对话呢。
今天介绍一个personal_tts模型,和阿里达摩院的MaaS平台ModelScope魔搭社区。魔搭社区是阿里云在去年云栖大会上发布的一个模型即服务(Model as a Service)的共享平台。为AI开发者或者仅仅是爱好者提供灵活、易用、低成本的一站式模型服务产品。
在这个平台上,达摩院提供了一些预训练模型、数据集和在线开放平台bla、bla的,当然还针对新注册用户还有有一些免费的计算资源。
废话不多说,直接看实现步骤,注册的过程就不水字数了,大家按照正常步骤操作即可。下面看看怎么让自己的声音朗读。
- 在创空间找个人声音定制或personal_tts模型
- 确保自己是登陆状态,按照文字提示已平稳的语速读出来,注意不要笑,也不要在旁边有人的时候读,容易社死。
- 就是读这些内容
- 读完就可以开始训练了,大概十分钟左右
- 训练结束后,就可以进行体验了,如果模型还没出来点击刷新模型列表,选择自己刚训练出来的,点击合成就行了。
这个也只能是玩玩而已,距离市面上的tts还有很大差距,数据集很小,所以英文就读不明白,语气也很生硬。
但是脑洞可以放大一点,tts+ChatGPT+3D打印+仿生机器人,数字生命就此诞生了,即便不是真的有生命,是否可以将亲人的声音、记忆和相貌永久保存下来。
评论留言