哆啦A梦是日本漫画家组合藤子·F·不二雄于1970年创作的科幻喜剧漫画。在这部漫画里,不二雄先生描绘了一个来自22世纪的猫型机器人——哆啦A梦。它有一个万能口袋,里面的各种奇思妙想的道具让人惊艳。
我想众多的80后90后小的时候都幻想能拥有属于自己的哆啦A梦,在21世纪的如今,我们有办法实现哆啦A梦吗?

AGI是什么?
根据斯坦福大学机器学习教授吴恩达(Andrew Ng)的说法,现在有两种类型的人工智能。一种是用于特定目的的“专用型人工智能”(Narrow AI=ANI,有时也被称为狭义人工智能),以及“通用人工智能”(即人工通用智能AGI)。
AGI(人工通用智能)被认为具有类似人类的认知能力,能够根据过去的经验和知识适应环境的变化。此外,据说它还能拥有想象力、表达能力、预测力和计划能力。
但是,AGI的研究开发比ANI晚了很多,现在在商业现场应用的大部分人工智能都是ANI。ANI可以学习局部的任务和工作,并且非常顺利地完成,因此它经常作为预测和处理的工具,以需求预测模型等形式被使用。
例如,咨询公司gartner在2021年曾发布过一个AI hype cycle周期,预测AGI还处于黎明期,预计技术成熟至少需要10年以上的时间。由此可见,AGI的实现是在遥远的未来了。

AI hype cycle周期
到目前为止,在美国的IT业界,一提到AI,很多人都默认是指ANI,但最近越来越多的人开始谈论AGI。
谷歌旗下的人工智能公司DeepMind于2021年5月发布了一份名为“Reward is Enough(报酬足够)”的职位报告。在这篇论文中,DeepMind提出,在不远的将来,我们就有可能接触到AGI。
定位论文与学术论文不同,是指“没有基于数学证明或实验证明假说,仅以文字形式提出假说的论文”。
这篇论文的执笔者是人工智能研究的泰斗、被称为“强化学习教父”的理查德·萨顿,以及萨顿的前弟子、AlphaGo开发的核心人物大卫·西尔弗。
这篇轰动一时的论文在人工智能研究者之间引起了巨大的争论,也为讨论AGI创造了契机。

打造通用人工智能只需要设计“报酬”就足够了吗?
在上述的那份职位表中,DeepMind公司提出了一个假设,即为了实现AGI,“只要给(人工智能)报酬就足够了”。
奖励是强化学习的核心概念,通过奖励的最大化,人工智能可以学习到各种知识。
例如“糖果和鞭子”中的“糖果”。如果知道采取特定的行动就能得到糖果,人工智能就会不断重复同样的行动,从而强化行动,心理学上称之为强化学习,这也是人工智能强化学习的基本概念。
再举一个例子,论文中出现了厨房人工智能机器人的例子。通常来说,厨房机器人要想将厨房的清洁程度最大化,需要具备以下小技巧。
- 感知力(区分干净和肮脏餐具的技能)。
- 知识(了解陶器的技能)。
- 运动控制(操纵陶器的技能)。
- 记忆力(回忆菜肴位置的技能)。
- 语言(从对话中预测未来可能出现的厨房脏污情况的技能)。
- 社会智能(减少幼儿干扰的技能,如设定程序防止小孩子在厨房里乱跑)。
作者提出,如果厨房机器人只是因为“保持厨房清洁”这一最终目标而获得奖励,那么上述细分的个人技能反而可能让人更深刻地理解为什么这种技能是必要的,因为它们被理解为实现奖励最大化这一唯一目标的解决方案。
另一方面,作者还说,如果让人工智能对每个细分的能力进行学习,那么从“保持厨房清洁”这一整体来看,就会出现“为什么”每个能力如此重要的问题。
通过为单一目标而不是为每个细分目标实施个别能力,结果是“如何整合能力的问题也得到了解答”。
因此,假设AGI可以在不设置详细条件的情况下被创造出来,而只需设置最终目标并给予奖励,所以DeepMind认为Reward is Enough“奖励是足够的”。
在论文的开头,DeepMind的作者这样说到。
“通过试错经验来学习最大化奖励的代理可以学习表现出大部分(如果不是全部)这些能力的行为,从而表明一个强大的强化学习代理可以构成AGI的一个解决方案。”
由此可见,只有将最终目标的报酬最大化,才能提高实现AGI的可能性。

反对报酬最大化的人认为需要对其进行技术整合
Meta(原Facebook)公司人工智能研究所的领导人物卢坎不同意这个说法,他认为要想实现AGI,仅仅通过报酬最大化是不够的。
卢坎是2018年图灵奖,即诺贝尔计算机科学奖的获得者,他在自己的推特账户上写道:“奖励显然是不够的。世界上有许多不同的挑战,解决每个挑战需要不同的intelligence(智慧)”。
从论文发表到现在已经过去一年了,我们应该如何看待人工智能的这一新型潮流呢?关键词在于“整合”。
到目前为止,在人工智能发展领域,每个领域的专家,如图像识别、自然语言处理和语音识别,都在从事该领域的专业研究,并相应地开发了各种应用。 然而,最近,各学科之间的技术整合(Consolidation)越来越多。
这种整合了几种不同技术的解决方案被称为“多模式”解决方案。模式指的是输入信息的类型,而多模式指的是“使用多种类型的输入信息”。
传统的人工智能通常被限制在它能处理的一种信息类型上,比如“只有图像”或“只有文本”(统称为单模式)。
另一方面,多模态人工智能要求它们同时处理多种类型的信息,如图像、文本、音频和视频,就像人类使用眼睛、耳朵和其他五种感官来收集各种类型的信息。
对多模式(多模态)人工智能的一种思考方式是,“如果多个信息被整合和处理,就有可能做出与人类更相似的决定”。

结语
事实上,多模态正在被应用和研究,例如,在下一代汽车导航系统中,多模态人工智能结合了文本、语音、图像和其他信息。日本三菱电机在2021年发表的论文中,将摄像机、LiDAR、麦克风等多模态传感信息捆绑在一起,提出了一个汽车导航解决方案。
另外,特斯拉人工智能和无人驾驶总监安德烈·卡帕西(Andrej Karpathy)在自己的推特上提到了人工智能研究中的技术整合。安德烈这一发言似乎暗示了人工智能领域正处于转换期。
安德烈在推特上这样说到:“人工智能领域正在进行的整合是显著的:在大约十年前,我们几乎不可能读到来自其他学科的图像、语音、语言和强化学习的论文,因为方法完全不同。”
看起来,在不远的将来,我们能够实现“AGI型”的机器猫哆啦A梦的量产与投放。

评论留言