手把手教你让图像说话，AI图片不再是纸片人。

2023-05-17 10:18:36 人工智能 ℃

后台-插件-广告管理-内容页头部广告（手机）

请先看以下视频。

视频加载中...

如果我告诉你这个视频中的人物、声音、动作，甚至说话的文本，全部是由AI自动生成，你相信吗？

这是制作这个视频所使用的唯一一张图片（由AI生成）：

这是说话的文本（由ChatGPT生成）：

这是结合上面的两个来生成视频（由D-ID生成）：

好，下面就来详细介绍一下如何实现这个视频的制作。

1、要想让人像说话，首先，你需要得到一张人像的图片。

这个人像你可以用AI生成，也可以使用自己的照片（请勿使用他人照片，这很可能涉及肖像权和伦理问题）。

下面来介绍一下如何使用AI来生成图片：

目前使用比较多的文本到图像是通过稳定扩散模型（stable diffusion) 实现,以下简称SD,同样的国内也有比较好的AI绘图模型可以使用，比如头条的#头条AI绘画解锁漫画大片#等……

如果你选择使用SD，则需要本地部署此模型，具体部署教程网上有很多，这里就不做介绍了。部署完毕后，再在webui上输入你想要得到的图像的提示词，之后调整参数，点击生成，便可以得到一张由AI生成的图片。

由于想要让人像动作需要脸部在镜头里比较完整（偏头和侧身都会导致表情生成的偏差），所以这里生成图片时最好搭配controlnet插件控制图像中人物姿势。

2、得到人物图片后，你就可以准备人物说话的语音文本了。这个文本可以你自己来写，也可以通过文本对话模型来生成（例如目前火热的ChatGPT）,这里就不做赘述了。

3、得到图像和语音的文本后，你就可以前往D-ID网站来生成视频了。

你可以使用自己提供的人像，也可以使用网站提供的人物头像，然后输入语音文本，添加合适的停顿点，选择语言类型和人声模型就可以导出了。如果你不喜欢网站提供的语音模型，也可以自己录音，或去其他网站生成（例如微软Azure或者Narakeet等，其实这几个网站都是互相合作的，语音模型也相差不大）。

注意，D-ID免费账户每14天只提供20积分的视频制作上限（每15秒消耗1积分），因此如果你对这方面需求比较大，则需要付费升级账户。

4、在完成视频制作后，如果想要给视频添加字幕，可以使用剪映，自动识别视频中的语音来生成匹配的字幕。

好了，到这里，你的视频就制作完成了，接下来就是上传到头条给大家分享了[狗头]。

最后，给大家提供几个可供controlnet绑定姿势的图片。原创不易，转载请注明出处，谢谢大家的支持和鼓励，再见！

后台-插件-广告管理-内容页尾部广告（手机）

标签：

人工智能物联网_17aiot.com