文生成视频大模型竞品对比#Sora

大数据
后台-插件-广告管理-内容页头部广告(手机)

为什么sorrow发布后会成为今年的第一个王炸?

首先来做一个精品分析,当前视频生成的软件有像国外的Pika、Runway的gen-2、Stable、able diffusion。国内像杭州的李白人工智能实验室的闪彩,要说Sora很优秀,全靠同行衬托。别的模型和Sara相比到底表现怎么样?下面来分别评测一下。

·先来看Runaway,Runaway每个新注册用户可以免费生成3个视频,它是默认生成4秒钟的视频。这个是我用真实的照片生成的视频,图生视频,人确实都在动,但是出现了人物肢体扭曲。向前走路的人走着走着裤子、腿有问题,要么就是神出鬼没的突然出现人类,人物逻辑关系也比较混乱,离真实的场景相差甚远。

 

·再看一下Pika,Pika默认生成3秒钟视频,这个是免费的,但是可以每次增加4秒来增加视频的长度,这个是收费的。还是输入同样的照片,人物面部是模糊的,这样一个无脸人的效果,身体的扭曲错乱程度好像比runway强了一些,动作慢很多。有的人是在动,有的人几乎不动,形成了左侧视觉中心。

这个女人一转身跟路人嘿的笑了起来,脸部表情也不太同步,这个就有点滑稽了。

 

·然后来试一下cable video diviewer,据说效果是远超runway和pick。同样的输入一张图片,人物面部也是模糊的,肢体大体还算协调,也没有前进、身体后退、脚步重叠这些问题,但是还是有突然消失的情况,离真实的场景稍微近了一些。

·再说一下国内神采,prime AI神采是国内外都可以用,今年春晚上出现的数字人就是由神采AI提供的AI背景生成的。但是目前图生视频,是不支持人类人脸图片生成的。我从官网上找到了风景类的,大家可以看一下这个效果,还是很不错的。

 

最后来对比下Sora,人物面部清晰,人物关系和谐,跟一个普通的摄像机拍出来的视频相比有过之而无不及,几乎是真实的画面的完美呈现。但是open AI团队也放出了目前Sora的弱点,就是在逻辑关系的处理上还会出现一些问题。

总结一下视频生成的竞品分析:

·1.生成视频角色不统一。

·2.分辨率、像素质量差。

·3.无法理解人、物品、场景之间的物理关系。

 

·4.转场缺乏连贯性,物体容易变形重叠。

open AI发布的王炸是多模态,这个产品Sora可以从技术角度解决了传统完成视频的几个难点。

·1.如何统一视觉数据构建规模的训练器。

·2.如何规避传统视觉模型对画幅分辨率等因素的限制。

·3.如何支持多种模态的输入具备多种任务的能力。

·4.如何理解人时间空间的关系,让视频更自然。

·5.如何延长视频的时长并增加连贯性。

让我们继续期待大模型在生成式视频领域带来的变革!

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。