又一国内大厂入局AIGC,阿里达摩院上线“文本生成视频大模型”

AIGC
后台-插件-广告管理-内容页头部广告(手机)
 

来源丨元宇宙简史

作者丨元宇宙简史编辑 Eco

【元宇宙导读】说实话,阿里达摩院上线“文本生成视频大模型”跟国外的差距还很大,甚至目前只支持英文输入,而且视频清晰度不够,只能持续几秒,但至少迈出了第一步,让我们在目前远远落后美国的AI赛道多一份期盼!

你有没有想过,如果只要输入一段文字,就能生成一段视频,那该有多方便?

无论是做短视频、广告、教学还是娱乐,都不用再费时费力地拍摄、剪辑、配音了,只要动动手指,就能让你的想象变成现实。

近日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。这是一个利用人工智能技术来生成内容(AIGC)的模型,只要输入一些简单的描述词,就可以看到生成的视频效果。

 

比如输入“A panda eating bamboo on a rock”,就可以看到一只大熊猫坐在岩石上吃竹子的画面。不过,目前这个模型还不支持中文输入,而且生成的视频长度多在2-4秒,等待时间从20多秒到1分多钟不等,画面的真实度、清晰度以及长度等方面还有待提升。

那么,这个模型是如何实现文本到视频的转化的呢?

据了解,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

 

阿里达摩院AIGC模型生成

不过,目前该模型仅支持英文输入。

这个模型是阿里达摩院在AI模型社区“魔搭”ModelScope上线的第一个AIGC模型。

“魔搭”是阿里达摩院联手CCF开源发展委员会在2022云栖大会推出的AI模型社区,首批开源模型超过300个,包括视觉、语音、自然语言处理、多模态等AI主要方向。

阿里达摩院并不是第一个尝试文本转视频技术的公司。早在去年,谷歌和Meta都展示了各自在文本转视频上的尝试,利用AI生成泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有宣布将相关技术推进到研究阶段以外的计划。

此外,总部位于纽约的人工智能初创公司Runway也发布了一种从文本到视频转化的AI模型Gen-2。上个月,这家曾参与创建Stable Diffusion的公司推出过模型Gen-1,能通过文本提示或参考图像指定的风格,将现有视频转化为新视频。比如将“街道上的人”变成“粘土木偶”,只需要一行提示词。

可以说,在AIGC领域,“文本生成图片”已经比较成熟的技术,但“文本生成视频”还是一个相对新颖的方向,难度也更大。因为视频不仅包含了图片的信息,还有时间、动作、声音等多种维度。要让AI根据文本生成一段流畅、逼真、有趣的视频,需要大量的数据、算力和创造力。

阿里达摩院上线“文本生成视频大模型”,无疑是在这个方向上迈出了重要的一步。

虽然目前这个模型还有很多不足,但是可以让我们在目前远远落后美国的AI赛道多一份期盼!

严正声明:本文为元宇宙简史原创,未经授权禁止转载!内容仅供参考交流,不构成任何投资建议。任何读者若据此进行投资决策,风险自担。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。