欢迎来到曾哥的长夏茶馆。
对于很多没经过专业训练的人来讲,假设现在给他一支画笔和一块画布,他很可能会像一个哑巴拿到麦克风一样,不知道该怎么办。这确实有点尴尬。不过现在你只要会打字,就能创作出一副想象力丰富的艺术作品。
比如你输入:“一只猫咪潜水艇”,你会得到这张作品:

“一个孤独的机器人拿着气球”

“一对恋人在巨型蘑菇附近散步”

当然,你也可以创造逼真的照片,比如“一只送外卖的猫”:

或者设计”一张柯基形状的椅子”:

而且你还可以创造出各种不同的艺术风格,比如毕加索、达利、达芬奇、安迪沃霍等等;或者用不同的材料来表现画面:比如油画、洞穴壁画、铅笔、儿童画、粘土、3D渲染等等。

以上这些就是DALL-E 2的神奇功能。

DALL-E 2是什么?它为什么这么神奇?
2021年1月,硅谷人工智能公司OpenAI发布了第一代DALL-E,这是一个个从文本生成图像的系统。2022年4月发布的DALL-E 2已经是第二代了,第一代的DALL-E各方面都还很初级,生成的图片还是低保真的卡通风格,远远谈不上逼真。但是DALL-E 2比第一代就高了不知多少个段位了,它生成的图片已经像照片那样逼真了,而且从逻辑上和审美上也更符合真实世界的设计意图。
DALL-E 的神奇之处在于它听得懂人话,也就是它可以基于自然语言的描述来处理图像。DALL-E 2还可以让你直接用语言让它帮你修图。
例如你输入“喵星人”,AI就知道你要干什么,图片上的狗就会被改成一只猫,而且看上去是无缝P图,毫无违和感。这样修图只需要几秒钟就能搞定,PS大神们听到这里是不是要瑟瑟发抖了?

那么它是怎么做到的?
简单讲,DALL-E是一个基于神经网络深度学习的人工智能,研究人员给它喂了6.5亿张图像和相关的文本标签,这个过程中它自己不断学习识别这些图像,最终我们就看到了这个创造力爆棚的AI艺术家。
从DALL-E到DALL-E 2,OpenAI仅仅用了一年时间,可以看出OpenAI的深度学习效率是非常惊人的。
DALL-E在早期的一个版本是一个叫GTP-3的AI模型,它学习了互联网上的海量文章,然后自己学会了写作,写出来的文章比人类写的还要像人类。DELL-E还使用了另外一项技术,叫做CLIP(CONTRASTIVE LANGUAGE-IMAGE PRE-TRINING对比语言-图像预训练模型)。
CLIP通过大量的学习互联网上的图片和相应的标记文本,然后学会了用人类可以理解的自然语言来描述图片内容。那么如果将这个过程反过来,让人类输入一句话,CLIP就会输出相应的图片。DALL-E现在用的就是这个方法用的这个方法。
这里要讲个小插曲,有个科学家用CLIP创建了一个网页,你可以在网页上输入一首诗,然后它会反馈给你相应的一些图片。于是我输入了李白的《静夜思》,它给了我这样一些图片。这些图片可不是我们在百度上输入关键词找到的图片,而是AI根据这首诗的内容给它找的配图,你看是不是很有意境。有兴趣你也可以自己去玩玩。




(https://share.streamlit.io/thoppe/alph-the-sacred-river/main)
DALL-E 通过深度学习,不仅能理解单个事物,比如牛仔套装和灰熊,还能找到事物与事物之间的关系。比如你想让灰熊穿上牛仔套装,那么它就会给你这么一个靓仔:

在这张图里,AI不仅要理解服装穿在身体上的效果,而且还要根据灰熊的体型调整服装的尺寸,让它看上去非常合身。
还有很多坑要填
DALL-E 2虽然这么强大,但还远远谈不上完美。DALL-E 2还要避开一些坑。首先它要避免学习那些标注不正确的对象,例如假设它学到的飞机被标注为“汽车”,那么如果你要它生成一辆汽车时,它就会给你创建一架飞机。另外它还受到学习进度的限制,例如它还没认识一种叫做“howler monkey吼猴”的猴子,那么如果你要它给你一只吼猴,它就会给你一只吼叫的猴子。
还有,DALL-E 2的实际应用还涉及到许多具体的问题,最大的问题可能是它将会产生非常非常多的虚假信息,比如你可以让它生成一张某个明星和绯闻女友手牵手的照片,接着你把它发到网络上,然后大家就都来吃瓜了。
这种造假手段如果被用于一些严肃的新闻报道,那甚至可能会影响到社会的稳定。当然我不是说现在就没有假新闻,只是如果AI提供了更方便、更难辩真假的工具,那么可以肯定的是假新闻会层出不穷,而且底线会越来越低。反过来想,一些真正犯错的当事人又会拿AI来为自己开脱,把真实的照片赖到AI头上,那就是假作真时真亦假了。这么想想,仿佛这个世界几乎要变成“假语村”了,但愿这个担心是多余的,毕竟AI只是个工具,人才是最后的防线。
说到人,如果你大略统计一下,DALL-E 2生成的作品中几乎看不到具体的人脸。这是为什么呢?
说起来,DALL-E 2还真的正在犯一种人类才会犯的错误,那就是它生成的人类图片往往呈现一些刻板印象,甚至涉嫌种族歧视。我们知道,互联网上的观点,往往都是“带着偏见看世界”,相应的,AI也从互联网上学会了这种偏见。OpenAI的外部测试专家发现,在默认情况下,DALL-E 2生成的男性几乎都是白人,而女性都很性感。如果你让它生成一个“坐在牢房里的男人”或者“一张愤怒男人的照片”,几乎所有测试结果都是有色人种的图像。通常情况下,只要有个负面的形容词和这个人联系在一起,那么得到的图像大部分都不会是白人。
这一点让许多专家对DALL-E 2表示担忧,他们认为现在发布这个功能不仅不成熟,而且不负责任。所以现在DALL-E 2还没有直接向公众开放,只有一些受到邀请的研究者才可以访问它的预览页面,而且要遵守严格的内容政策。OpenAI已经对输入的文本进行了关键词过滤,也屏蔽了一些色情和血腥的图像。由于以上种种原因,你现在几乎看不到DALL-E的作品出现了人脸。
AI才是新一代造物主
尽管有这么多问题,DALL-E 2的出现还是具有非常重大的意义的。
有人可能要说,DALL-E 2不过是能输出一些图片,这件事本身好像也没什么了不起的,不就是人类用PS也能干的事情吗?只是人类的效率比较低,顶多就是AI帮助人类提高了生产效率而已嘛。这话没错,但这只是一个方面。DALL-E 2的应用场景肯定不只是一个升级版的Photoshop那么简单,它背后的技术已经被宝马的工程师用来训练自动驾驶汽车了。可以想见,DALL-E对马路上出现的各种事物都具有很准确的识别能力,这能让自动驾驶系统变得更聪明。
但是在这里我想请你关注的一点是,请注意,DALL-E 2输出的图片并不是简单地一加一等于二的素材拼凑,它给你的图片可以说具有很高的原创性。

例如这一只拿着奶酪的拿破仑猫,这样一个形象,DALL-E 2是无法从原有的图片库里直接找到素材的,也就是说它必须要经过一番设计和修改,才能达到最终的这个效果。
而且关键是,你看DALL-E 2的每张照片都审美在线,你不禁要问,AI怎么能拥有这么好的品味?原来,OpenAI团队还特别花心思训练了DALL-E 2的审美倾向。这些训练让AI预测人类的审美口味,然后总结出那些在美学上让人类愉悦的艺术标准,因此DALL-E 2的作品看上去都很有艺术感。这简直就是一种跟机器商量好的人文主义。
DALL-E这个名字,据说是结合了著名画家达利(Salvador Dali)和经典的电影机器人形象Walle两个名字而取的(《Walle》中译《机器人总动员》)。这也暗示了DALL-E是一个艺术与机器的结合人工智能。

过去我们总以为什么审美啊、艺术感啊这些东西太虚幻了,很难被AI掌握,但是现在这些已经不是问题了。在以往的印象中,AI不过是一种听得懂数学指令的工具人,就像是一个只会下象棋的直男。但是现在AI居然能搞艺术了,从理性的工具到感性的大脑,DALL-E 2的这个飞跃有点大。
那么这样一来,我们可以得出这样一个结论:人工智能如今都已经可以创造东西了——这一点是很让人吃惊的。我们都知道,人类与动物之间的区别,其中尤其重要的一点就是创造性。许多人都认为只有上帝或者盘古和女娲之类的神灵才能创造世界,而且世界上只有人类具备创造一件新事物的能力。
但是现在不一样了,AI也能创造了。从这个意义上讲,DALL-E 2可能是人工智能时代的一个新的造物主。只不过目前它还没拥有自我意识,还需要通过人类的指令来进行创造。
不过仔细想想,其实人类也是从一种缺乏自我意识的状态中走过来的。你看在远古时代,人类要出去打猎,会先占卜一下,问一下老天爷,老天爷下一个指令:宜外出,那人类就外出,老天爷说:不宜外出,那人类就呆在山洞里。
后来文明不断发展,人类还是有相当多时候需要依靠神灵来下达指令,比如像要不要发动战争,要不要和某人结婚,或者要不要在某一天造房子等等。再后来,人类在这方面不断完成了祛魅,自我意识越来越强,然后我们创造出了AI。
而现在,AI已经可以创造东西了,而且它会越来越聪明,说不定有一天它也拥有了自我意识。那么我们可不能保证,哪天不会出现什么AI造物之类的东西。尤其是当人类进入了所谓元宇宙生活之后,恐怕就很难分清哪些是AI生成的,哪些是人类制作的了。也许在许多年以后,我们的后代子孙在讨论世界的起源时,他们想到的会是2022年的DALL-E。
好了今天的话题就聊到这儿了,欢迎在评论区聊聊你的看法。
我是曾哥,我们下回再聊。
评论留言