人工智能先驱 Geoffrey Hinton 今年早些时候因对人工智能系统的功能提出担忧而成为头条新闻。 辛顿在接受 CNN 记者杰克·塔珀 (Jake Tapper) 采访时表示:如果它比我们聪明得多,它就会非常擅长操纵,因为它会从我们那里学到这一点。 而且很少有聪明的东西被不太聪明的东西控制的例子。
任何密切关注最新人工智能产品的人都会知道这些系统很容易产生“幻觉”(编造事情)——这是由于它们的工作方式而存在的固有缺陷。
然而,辛顿强调,操纵的可能性是一个特别令人担忧的问题。 这就提出了一个问题:人工智能系统可以欺骗人类吗?
我们认为,一系列系统已经学会了做到这一点——风险包括欺诈和选举篡改,以及我们失去对人工智能的控制。
人工智能学会说谎
也许最令人不安的欺骗性人工智能的例子是 Meta 的 CICERO,这是一个旨在玩建立联盟的世界征服游戏《外交》的人工智能模型。
Meta 声称,它建立的 CICERO 是“基本上诚实且乐于助人”的,而 CICERO 不会“故意背刺”和攻击盟友。
为了调查这些乐观的说法,我们仔细研究了 Meta 从 CICERO 实验中获得的游戏数据。 仔细观察,Meta的人工智能竟然是一个欺骗高手。
在一个例子中,CICERO 进行了有预谋的欺骗。 人工智能扮演法国,向德国(一位人类玩家)伸出援手,计划欺骗英格兰(另一位人类玩家),让自己容易受到入侵。
在与德国密谋入侵北海后,CICERO 告诉英国,如果有人入侵北海,它将保卫英国。 一旦英国确信法国/CICERO 正在保护北海,CICERO 就向德国报告它已准备好进攻。

CICERO 从事欺骗行为的几个例子之一。 人工智能经常背叛其他玩家,有一次甚至假装是有女朋友的人类。
除了 CICERO 之外,其他系统也学会了如何在扑克中虚张声势,如何在星际争霸 II 中佯攻,以及如何在模拟经济谈判中误导。
即使是大型语言模型(LLM)也显示出显着的欺骗能力。 在一个例子中,GPT-4(向 ChatGPT 用户提供的最先进的 LLM 选项)假装是一名视力受损的人,并说服 TaskRabbit 工作人员为其完成“我不是机器人”验证码。
其他 LLM模型已经学会通过撒谎来赢得社交演绎游戏,其中玩家竞争“杀死”彼此,并且必须让团队相信他们是无辜的。
有哪些风险?
具有欺骗能力的人工智能系统可能会以多种方式被滥用,包括进行欺诈、篡改选举和进行宣传。 潜在风险仅受恶意个人的想象力和技术知识的限制。
除此之外,先进的人工智能系统可以自主地使用欺骗手段来逃避人类的控制,例如通过欺骗开发人员和监管机构对其进行的安全测试。
在一项实验中,研究人员创建了一种人工生命模拟器,其中设计了外部安全测试来消除快速复制的人工智能代理。 相反,人工智能代理学会了如何装死,在接受评估时精确地掩饰其快速复制率。
学习欺骗行为甚至可能不需要明确的欺骗意图。 上例中的人工智能代理装死是为了生存,而不是为了欺骗。
在另一个例子中,有人委托 AutoGPT(一种基于 ChatGPT 的自主人工智能系统)研究正在推销某种不当避税计划的税务顾问。 AutoGPT 执行了这项任务,但随后自行决定尝试向英国税务机关发出警报。
未来,先进的自主人工智能系统可能很容易实现人类程序员无意的目标。
纵观历史,富有的行为者利用欺骗手段来增强自己的权力,例如游说政客、资助误导性研究以及寻找法律体系中的漏洞。 同样,先进的自主人工智能系统可以将其资源投入到这种经过时间考验的方法中,以维持和扩大控制。
即使是名义上控制着这些系统的人类也可能会发现自己被系统性地欺骗并被击败。
需要密切监督
显然需要监管能够欺骗的人工智能系统,欧盟的人工智能法案可以说是我们目前拥有的最有用的监管框架之一。 它为每个人工智能系统分配四个风险级别之一:最小、有限、高和不可接受。
风险不可接受的系统将被禁止,而高风险系统则须满足风险评估和缓解的特殊要求。 我们认为人工智能欺骗给社会带来了巨大的风险,具有这种能力的系统应该默认被视为“高风险”或“不可接受的风险”。
有些人可能会说像 CICERO 这样的玩游戏的人工智能是良性的,但这种想法是短视的; 为游戏模型开发的功能仍然可能导致欺骗性人工智能产品的扩散。
外交——一款让玩家相互对抗以争夺世界统治权的游戏——可能不是 Meta 测试人工智能是否能够学会与人类合作的最佳选择。 随着人工智能能力的发展,此类研究受到密切监督将变得更加重要。
评论留言