请先看以下视频。
视频加载中...如果我告诉你这个视频中的人物、声音、动作,甚至说话的文本,全部是由AI自动生成,你相信吗?
这是制作这个视频所使用的唯一一张图片(由AI生成):

这是说话的文本(由ChatGPT生成):

这是结合上面的两个来生成视频(由D-ID生成):

好,下面就来详细介绍一下如何实现这个视频的制作。
1、要想让人像说话,首先,你需要得到一张人像的图片。
这个人像你可以用AI生成,也可以使用自己的照片(请勿使用他人照片,这很可能涉及肖像权和伦理问题)。
下面来介绍一下如何使用AI来生成图片:
目前使用比较多的文本到图像是通过稳定扩散模型(stable diffusion) 实现,以下简称SD,同样的国内也有比较好的AI绘图模型可以使用,比如头条的#头条AI绘画解锁漫画大片#等……
如果你选择使用SD,则需要本地部署此模型,具体部署教程网上有很多,这里就不做介绍了。部署完毕后,再在webui上输入你想要得到的图像的提示词,之后调整参数,点击生成,便可以得到一张由AI生成的图片。

由于想要让人像动作需要脸部在镜头里比较完整(偏头和侧身都会导致表情生成的偏差),所以这里生成图片时最好搭配controlnet插件控制图像中人物姿势。
2、得到人物图片后,你就可以准备人物说话的语音文本了。这个文本可以你自己来写,也可以通过文本对话模型来生成(例如目前火热的ChatGPT),这里就不做赘述了。
3、得到图像和语音的文本后,你就可以前往D-ID网站来生成视频了 。

你可以使用自己提供的人像,也可以使用网站提供的人物头像,然后输入语音文本,添加合适的停顿点,选择语言类型和人声模型就可以导出了。如果你不喜欢网站提供的语音模型,也可以自己录音,或去其他网站生成(例如微软Azure或者Narakeet等,其实这几个网站都是互相合作的,语音模型也相差不大)。
注意,D-ID免费账户每14天只提供20积分的视频制作上限(每15秒消耗1积分),因此如果你对这方面需求比较大,则需要付费升级账户。
4、在完成视频制作后,如果想要给视频添加字幕,可以使用剪映,自动识别视频中的语音来生成匹配的字幕。
好了,到这里,你的视频就制作完成了,接下来就是上传到头条给大家分享了[狗头]。
最后,给大家提供几个可供controlnet绑定姿势的图片。原创不易,转载请注明出处,谢谢大家的支持和鼓励,再见!




评论留言