文生成视频大模型竞品对比#Sora

2024-03-19 09:51:41 大数据 ℃

后台-插件-广告管理-内容页头部广告（手机）

为什么sorrow发布后会成为今年的第一个王炸？

首先来做一个精品分析，当前视频生成的软件有像国外的Pika、Runway的gen-2、Stable、able diffusion。国内像杭州的李白人工智能实验室的闪彩，要说Sora很优秀，全靠同行衬托。别的模型和Sara相比到底表现怎么样？下面来分别评测一下。

·先来看Runaway，Runaway每个新注册用户可以免费生成3个视频，它是默认生成4秒钟的视频。这个是我用真实的照片生成的视频，图生视频，人确实都在动，但是出现了人物肢体扭曲。向前走路的人走着走着裤子、腿有问题，要么就是神出鬼没的突然出现人类，人物逻辑关系也比较混乱，离真实的场景相差甚远。

·再看一下Pika，Pika默认生成3秒钟视频，这个是免费的，但是可以每次增加4秒来增加视频的长度，这个是收费的。还是输入同样的照片，人物面部是模糊的，这样一个无脸人的效果，身体的扭曲错乱程度好像比runway强了一些，动作慢很多。有的人是在动，有的人几乎不动，形成了左侧视觉中心。

这个女人一转身跟路人嘿的笑了起来，脸部表情也不太同步，这个就有点滑稽了。

·然后来试一下cable video diviewer，据说效果是远超runway和pick。同样的输入一张图片，人物面部也是模糊的，肢体大体还算协调，也没有前进、身体后退、脚步重叠这些问题，但是还是有突然消失的情况，离真实的场景稍微近了一些。

·再说一下国内神采，prime AI神采是国内外都可以用，今年春晚上出现的数字人就是由神采AI提供的AI背景生成的。但是目前图生视频，是不支持人类人脸图片生成的。我从官网上找到了风景类的，大家可以看一下这个效果，还是很不错的。

最后来对比下Sora，人物面部清晰，人物关系和谐，跟一个普通的摄像机拍出来的视频相比有过之而无不及，几乎是真实的画面的完美呈现。但是open AI团队也放出了目前Sora的弱点，就是在逻辑关系的处理上还会出现一些问题。

总结一下视频生成的竞品分析：

·1.生成视频角色不统一。

·2.分辨率、像素质量差。

·3.无法理解人、物品、场景之间的物理关系。

·4.转场缺乏连贯性，物体容易变形重叠。

open AI发布的王炸是多模态，这个产品Sora可以从技术角度解决了传统完成视频的几个难点。

·1.如何统一视觉数据构建规模的训练器。

·2.如何规避传统视觉模型对画幅分辨率等因素的限制。

·3.如何支持多种模态的输入具备多种任务的能力。

·4.如何理解人时间空间的关系，让视频更自然。

·5.如何延长视频的时长并增加连贯性。

让我们继续期待大模型在生成式视频领域带来的变革！

后台-插件-广告管理-内容页尾部广告（手机）

标签：

人工智能物联网_17aiot.com