一.摘要
基础模型最终可能会通过多种方式破坏国家安全:意外事故、无意的升级、无意的冲突、武器扩散,以及干扰人类外交只是长长的风险列表中的一些。人工智能基础模型的信心建设措施研讨会由OpenAI地缘政治团队和加州大学伯克利风险与安全实验室主办,汇聚了多方利益相关者,以审视缓解基础模型对国际安全潜在风险的工具和策略。
起源于冷战时期,信心建设措施(CBM)是减少敌对态度、防止冲突升级和提高各方信任的行动。CBM的灵活性使其成为应对基础模型领域快速变化的关键工具。与会者确定了以下直接适用于基础模型的CBM,在本会议记录中有进一步阐述:1. 危机热线 2. 事件共享 3. 模型、透明度和系统信息卡 4. 内容来源和水印 5. 合作红队演练和桌面推演 6. 数据集和评估共享。由于大多数基础模型开发者都是非政府实体,许多CBM将需要更广泛的利益相关者社区参与。这些措施可以由人工智能实验室或相关政府行为体实施。
二.介绍
基础模型最终可能会通过多种途径为破坏国家安全提供机遇:意外事故、无意的升级、无意的冲突,武器扩散以及干扰人类外交只是长长的机遇列表中的一些。与此同时,新的国防和安全行为体继续开发基础模型能力,进一步增加了国际危机的风险。
人工智能基础模型的信心建设措施研讨会由OpenAI地缘政治团队和加州大学伯克利风险与安全实验室(BRSL)主办,汇聚了来自人工智能实验室、政府、学术界和公民社会的参与者,提出了缓解基础模型对国际安全潜在风险的工具和策略。基础模型是指使用大量数据、自监督和深度学习方法的模型,这些模型“可以适应......到广泛的下游任务”。研讨会包括演讲和分组讨论,参与者有机会设计可能的信心建设措施(CBM)。与会者共同确定了以下直接适用于基础模型的CBM:
- 危机热点
- 事件共享
- 模型、透明度和系统信息卡
- 内容来源和水印
- 桌面推演
- 数据集和评估共享
在冷战期间推广使用,CBM代表“解决、预防或解决国家之间不确定性的措施。CBM旨在防止敌对行动升级并在过去的对手之间建立互信,可以是正式或非正式的,单方面、双边或多边的,如军事或政治的,并且可以是国与国之间的或非政府的。” 由于国家对其盟友和对手的能力或意图信息不完全,正式和非正式规则可以对国家行为建立可预测性,反过来有可能减少国家政府之间的误解和误传。这符合所有各方的利益。
历史上的CBM例子包括国家之间建立直接电话线路,以便在核危机期间进行沟通,报告国家之间的武器转让,邀请观察员目睹外国可能误以为具有威胁性的军事演习,为对抗海军在和平时期如何在公海上互动建立明确的“规则”,如欧洲常规武装军队条约规定的有关部队移动的数据交换,或对技术能力进行现场监测。
与规范公司与消费者关系的国内或地区人工智能法规相比,CBM旨在通过在一个通常不透明的国际环境中引入可预测性,目标和解决与国与国之间互动相关的风险。虽然CBM可以针对预防各种伤害,但研讨会参与者专注于缓解基础模型加剧的人权侵犯、非常规武器扩散和由于误解导致的升级的CBM。国防战略现在通常会解决人工智能的风险和机遇,一些政府和智库明确呼吁采取信心建设措施。
然而,除了英国的2023年综合审查更新之外,大多数政府还没有充分考虑军事人工智能的影响,更不用说基础模型了。 尽管许多现有的国防文件没有直接针对基础模型,但政府仍然可以将这些报告中确定的CBM纳入现有的人工智能承诺,如美国政府关于负责任军事使用人工智能和自治系统的政治宣言。 在解决人工智能对国际安全风险的文献基础上,本次研讨会重点针对基础模型生成实用的CBM。 这些报告中确定的CBM并非详尽无遗,在今天的国际气候中同等可行。 在适当的情况下,我们概述了可能干扰CBM成功的政治和技术限制。
2.1 术语说明:基础模型、生成式AI和大型语言模型
为了简洁起见,我们使用“基础模型”一词来指代基础模型和微调模型、生成式AI以及大型语言模型。在适当的情况下,我们确定CBM意在解决的特定类型的AI模型。基础模型、大型语言模型和生成式AI这些术语通常可以互换使用,但这些术语之间存在显著的、尽管不精确的差异。正如海伦·托纳指出的,这些术语没有“清晰的界限......[但]......作为尝试指出近年来引起特别关注的一系列研究方向和AI系统而出现。” 基础模型是使用深度学习和自监督学习方法构建的,并使用大量数据,根据Rishi Bommasani等人在斯坦福大学的2022年论文,这些数据“可以适应(例如微调)到广泛的下游任务。” 用于训练基础模型的大量数据和计算功率导致各个领域出现令人印象深刻的改进。
尽管基础模型通常与语言和图像生成等生成式AI应用相关(见下文),但这些模型也可以应用于机器人、人机交互、推理和情感分析等领域。 另一方面,生成式AI是一个更窄的AI类别,包括能够生成媒体的模型和算法。 这些模型生成文本、音频、图像和软件代码等内容。 今天公开的许多模型已经在基础模型上进行了微调。 例如,ChatGPT模型在名为GPT-3.5和GPT-4的基础模型上进行了微调,而Stability AI使用StableLM等基础模型生成图像。
2.2 为什么需要针对基础模型的信任建立措施?
历史上有许多危机事件,误解或误传导致双方都不想要的军事升级。误解在20世纪最血腥的战争中发挥着突出的因果作用,无论是在两次世界大战中,还是在越南战争、朝鲜战争和阿富汗战争等冷战“代理”冲突中,亦或是更近期的第二次海湾战争和叙利亚内战等21世纪冲突。有大量案例表明,军方错误地瞄准平民飞机并杀死机上大多数或全部平民,也有许多历史上的假阳性,仅仅避免了核交换。
CBM的灵活性使其成为应对基础模型景观快速变化的关键工具。人工智能是一种通用的“启用技术”,而不是一种军事技术本身。例如,目前在联合国某些常规武器公约(UN CCW)的规则制定中,重点关注论坛确定的武器,这排除了许多不明显归类为“武器”的AI应用,比如生成式AI,但这些应用仍然可以影响国际冲突的方向。特别是,它们不具约束力的逐步构建性质使CBM可以随着技术的必然发展而具体化。这是必不可少的,因为在模型训练后它们具有什么能力尚不明确,新的能力通常只有在进一步的红队演习和进行安全评估之后才会暴露出来。尽管有几个基准用于评估基础模型,但它们绝大多数指向领域知识和推理方面的快速改进。这些能力已经与获取常规和非常规武器建造信息等国际安全风险相关联。
CBM不会推翻或破坏联合国等论坛的重要努力,可以作为对正在进行的国际监管讨论的配合。然而,CBM在解决基础模型带来的风险方面具有独特优势,因为它们的创新和扩散速度非常快。与正式规则或国际条约相比,CBM可以通过减少参与讨论的谈判各方数量来降低协调成本(如用于谈判的时间和金钱)。CBM通常是自愿的,这可以激励不愿意在正式条约上完全赌上国家信誉的各方参与。CBM也更容易修改(和废除)。CBM还可以“从小处着手”,逐步发展成正式规则,这在低信任的国际环境下尤其有用。
模型性能和模型安全也是两个不同的研究领域,这意味着模型性能的提高与其安全配置变化不大。一个可以生成核物理信息的大型语言模型是一种能力,而一个拒绝用户关于制造炸弹详情请求的大型语言模型则是一个安全缓解的例子。到目前为止,AI实验室通过投资各种社会技术措施来解决模型性能和安全之间的差距。这些措施包括可解释性和ALIGN研究、通过系统卡和透明度说明公开披露风险、延迟发布模型直到实施足够的安全缓解措施、开源评估和来源研究等。尽管做出这些努力,机器学习社区普遍认为,为跟上LLM性能的迅速提高,危害缓解措施还需进一步改进。
在国际层面上,各国的典型行为进一步对这一局面形成挑战。国家通常不愿与需要过多透明化本国能力的合作安全协议进行接触。如果不能保证对手方也会采取同样限制,它们更不可能限制本国能力的发展。然而,由于性能和安全研究是两个不同的研究领域,可以在不限制性能改进研究的情况下就安全性进行协调。这一非预期的好处为AI实验室所知,这就是为什么商业实验室通常愿意开源安全性研究成果,如评估和来源技术。
2.3 基础模型信任建立措施概览
根据联合国裁军事务办公室公布的清单,本文档将CBM分为四类:沟通和协调、观察和验证、合作和一体化以及透明度。这些类别不是离散的;许多CBM可以舒适地适应多个类别。由于大多数基础模型开发者都是非政府实体,许多CBM将需要涉及更广泛的利益相关者社区。这些措施可以由AI实验室或相关政府行为体实施。在本文中,我们举例说明了相关技术如何导致国际危机,以期这些例子可以帮助我们更好地预测目前还处于初级阶段或经验未经验证的基础模型带来的风险。
2.4 沟通和协调
沟通和协调CBM可以减少误解和误判,如果不解决这些误解和误判,可能会升级为冲突。研讨会确定了两项可以通过沟通和协调CBM来补救的沟通和协调挑战:关于内容真实性的误解,以及关于谁授权决定的误解。
首先,在内容真实性的主题上,几位与会代表重申,基础模型和具体来说生成式AI可以用来持续“真相衰落”,或增强公众对政治领导人和其他专家报告信息的不信任。这种不信任反过来又使报道国际事件和危机变得更加复杂。例如,2022年3月,一个广泛传播的深度伪造视频在社交媒体上显示乌克兰总统泽伦斯基指示士兵向俄罗斯部队投降。个人很快就能与交互式深度伪造进行交谈,深度伪造可以适当地暂停以等待另一方发言,并使用预测建模和语音合成来进行对话。我们可能会看到组合式深度伪造的使用——不仅是一个假视频或图像,而是许多在真实事件之间随时间释放的假内容,制造一个似乎可信的合成历史。
其次,强大的沟通和协调信任建立措施允许人类行为体考虑AI向系统或团队引入的模糊性。AI系统通常被设计来支持或增强人类决策,这使得很难分离人类操作者的贡献。AI系统还可能生成可能被人类操作者或其他AI系统误解或误解的输出或决策;在某些情况下,AI与人机团队的集成会 obscure 是否AI是(无意中、意外地或故意地)导致军事升级的原因。
一个典型的例子是1988年伊朗航空655号班机的悲剧,它被一艘宙斯盾巡洋舰击落,这是当时最复杂的防空武器系统,击落顺序来自文森尼斯号,造成290名平民死亡。这起事故的原因被归咎于许多因素:宙斯盾错误地将商业客机识别为军用飞机;文森尼斯号的指挥官被描绘为在一个易于误解的高压氛围中不必要的侵略性;一艘附近的美国海军舰只边远号有一个人类指挥官,他正确地推断出伊朗航空655号班机是一架民用飞机,但他认为宙斯盾的识别系统在技术上优于他自己的人类判断,所以没有将他的评估告知文森尼斯号。宙斯盾雷达系统最终确实将伊朗航空655号班机识别为民用飞机,但人类操作员选择接受第一次读数。
伊朗航空655号班机事故具有许多当今人机团队存在的挑战:过度信任和不愿挑战系统做出的决定、由于现有地缘政治敌意而误解威胁、以及挑选证据来支持对事件的解释。 在这种氛围中引入AI,它承诺利用黑盒技术增加目标选择和分析的速度,这使得识别沟通途径以防止事故变得更加必要。
热线
当沟通整合或被非人类实体所取代时,解释人类意图的能力会变得更具挑战性。热线可以帮助澄清“谁”或“什么”负责军事升级,并澄清红线以避免一开始就越过红线。研讨会与会者指出,竞争国家可以建立沟通渠道,以在政治危机期间减少摩擦,这些渠道可以建立在现有的国与国之间的热线基础上,用于管理军事危机。尽管在减轻核危机方面发挥着突出作用,但最近的政治事件强调了一个事实,即安全规范将决定各方在何时使用或拒绝使用电话。这个观点在2023年2月一架中国间谍气球飞越美国引发的危机以及之后人民解放军拒绝接听美国国防部长劳埃德·奥斯汀的热线电话时变得尤为明显。
在危机发生后不久,研究人员提出了几种解释人民解放军行为的说法,这些说法指出两军在如何解释威胁格局方面存在差异。一些人声称,人民解放军将信任建设措施和透明度视为“不利”的,并将“日益大胆的行为”正常化。另一位研究人员表示,美军规范注重避免军事升级,而“在中国体系中,冲动是不要为错误承担责任”,或者不要成为向政治或军事领导人报告消息的人。 值得注意的是,在一个存在三个主要军事力量的世界里,热线的使用会变得更加复杂,因为可能存在一方行为体利用另外两国之间的危机沟通的动机。
成功使用热线可能需要各方对基础模型的风险以及信任建设措施可以减少不必要军事升级风险的共同信念。各国经常在威胁的严重程度上存在分歧,并会追求技术来保护自己的边界安全,即使以全球安全的代价。本文件中列出的其他信任建设措施,例如协作红队演习、应急响应桌面游戏和事件共享,可以提供必要的数据来评估风险格局,同时增强信任建设措施不会损害任何单一国家安全的观念。作为未来研究领域,与会者建议研究了解政策制定者对基础模型对国际安全的风险的认知,并确保参与信任建设措施的激励措施解决国别的社会价值观。
事件共享
在公共安全至关重要的部门,比如电动汽车、网络安全、航空和医疗保健,事件共享是一种常见的做法。关于安全事件或“接近失误”的信息共享用于改善安全性并减少新的事故发生的可能性。就军事系统中的自主性而言,迈克尔·霍罗维茨和保罗·沙勒此前建议建立一个“国际自治事件协议”,重点关注自治系统的军事应用,特别是在空中和海上环境中......这将通过减少自治系统的意外升级风险以及减少关于自治系统行为背后人类意图程度的模糊性来降低风险。这一问题在国防技术现代化中有所记录。
例如,触屏控制的引入USS约翰·S·麦凯恩号,以及船员对与这些控制相关的不同设置的混淆,导致了40年来美国海军规模最大的海事事故,并导致10名水手死亡。建立一个自愿的、保密的事件共享机制有助于识别基础模型导致的失误模式,并为减轻这些风险提供信息。与会者强调,这种做法的一个关键方面是建立保护共享信息的组织的信任。必须采取步骤来确保共享的信息不会被操纵或用于针对特定国家的政治目的。即使存在这些障碍,与会者一致认为,自愿的事件共享可以成为一项有价值的信任建设措施。
开源AI事件共享计划已经存在,比如AI、算法和自动化事件和争议(AIAAIC)以及AI事件数据库。截至2023年4月,这些开源数据库主要以新闻调查为特色,有时包括关于生成式AI和国际安全的事件,如最近的五角大楼爆炸的深度伪造。与会者建议建立一个针对基础模型造成的国际安全事件的可比数据库,可能侧重于异常漏洞和新兴的模型行为。
研讨会与会者提出了几个尚未解决的问题。具体来说,哪些模型行为和滥用会被视为一个“事件”是不清楚的,各方参与事件共享协议的动机是什么,以及这些各方如何在尊重知识产权和用户隐私的同时确保准确报告,这些都是不清楚的。新兴和危险的模型功能与大规模滥用模型之间可能存在区别。前者类别可能包括与模型改进相关的行为,例如操纵用户或设计合成生化剂的能力。后者类别可能涉及大规模滥用运动,比如使用模型创建垃圾邮件或虚假信息。
其他行业通过数据匿名化和加密、可信第三方协议、访问控制、保密协议和安全审计来解决这些挑战。某些类型的事件共享可以利用实验室之间现有的专业关系,可以简单地主持各方之间的非正式会议。但是,事件共享可能需要一个多边实体来协调多个方面之间的事件收集。与会者指出,AI事件响应实体可以类比于网络安全领域现有的计算机应急响应小组(CERT)。
建立一个自愿的、保密的事件共享机制有助于识别基础模型导致的失误模式,并为减轻这些风险提供信息。与会者强调,这种做法的一个关键方面是建立保护共享信息的组织的信任。必须采取步骤来确保共享的信息不会被操纵或用于针对特定国家的政治目的。即使存在这些障碍,与会者一致认为,自愿的事件共享可以成为一项有价值的信任建设措施。
三.透明度
由于训练数据中的偏见,算法错误或与其他系统的意外交互,AI系统可能会产生意外结果。比如,用于总结ISR数据的基础模型可以在数据中引入会影响军事反应的伪造内容。在快节奏和高压的军事环境中,实际上是错误的但看似合理的输出,也称为“幻觉”,可能难以检测。此外,标注实践通过优先对待某些世界观,可能会导致偏见,这对即使只是进行例如报告检索和总结等例行任务的情报分析师来说都是个严重的风险。加剧这个问题的是,模型在不同语言上的表现并不均等,很少清楚地知道模型生成中应该反映谁的价值观。最后,提示注入攻击,一种数据污染和安全利用的类型,可以更改模型输出。当对手能够访问训练数据或模型权重时,提示注入攻击更容易实施。
一些与会者还提到了信息过载的问题。即使信息准确,过多的信息本身也会带来风险。国家往往不愿升级军事活动,因为它们不相信自己对对手的预测和情报。例如,机器学习可以提高传感器的性能,使海域过于透明,削弱二次打击力量的威慑能力。然而,总的来说,获得准确信息倾向于促进国际稳定。为了解决上述提出的挑战,与会者探讨了各种建立信任的措施。下面简要概述这些措施。
3.1 透明度报告、模型和系统卡片
系统卡片是详细记录预期用例、局限性以及红队演练结果的文件,类似于航空航天、医学和制药等行业的文档实践。在国内环境中,系统卡片的支持者认为,它们可以帮助政策制定者更好地理解AI系统的功能和局限性,为监管提供信息。系统卡片不要求第三方访问模型本身,这意味着它们可以增加有关功能的透明度,而不会泄露可导致对模型逆向工程的研究细节。
对于国防领域使用的基础模型,系统卡片还应包括与人机交互和过度依赖相关的风险,这可以帮助外部观察者在发生事故或升级的情况下解释系统的行为。(并不总是能知道系统奇怪行为的责任在人还是机器。)例如,2021年联合国安理会的一份报告描述了土耳其制造的Kargu-2无人机在利比亚被部署,是一次杀伤性自治武器系统被用于暴力冲突的实例,这个描述在国际安全界引发了重大争议,并突出了理解人机团队行为所涉及的不确定性。
为了达到最佳效果,系统卡片应该可读性强、易于访问。如今许多系统卡片可以在Github等代码仓库网站上找到,但这些网站政策制定者不常访问,而且格式对机器学习领域之外的人来说有时不太容易理解。
和本报告中的其他措施一样,模型和系统卡片也存在局限性。具体来说,外部各方可能很难验证模型和系统卡片的结果。在非对抗和非军事背景下也存在局限性。基础模型通常不向第三方公开,一些公司会公开自己的基础模型代码的例外。当基础模型公开时,它们通常通过人工反馈的强化学习进行优化,如ChatGPT中使用的InstructGPT模型。总体来说,公开的微调模型由于在基础模型训练结束后实施的安全措施,往往更安全。透明度报告、模型和系统卡片通常记录基础模型的能力和局限性,使第三方难以复制或以其他方式验证这些文件中的发现。这在国际安全领域尤其成问题,因为对手可能有诸多原因来夸大或低报其基础模型的能力。因此,应该通过其他协调活动来支持模型和系统卡片,如合作红队演练(在“合作、协作和整合”部分有解释)。
3.2 观察和验证
各方也可以同意使用经验方法来观察和验证各参与方是否遵守协议。这些技术通常无法保证完全透明,因为各国不愿意透露其全部军事能力,如上所述。《生物武器公约》、《化学武器公约》和《不扩散核武器条约》都包含了第三方验证机制。验证也是联合国框架之外协议的一个关键特征。例如,《开放天空条约》允许签约国派出观察飞机收集有关某些军事能力和活动的数据。
验证的成功与否往往取决于检测和监测技术的可获得性。因此,在国际背景下检测AI滥用更注重对硬件的限制,因为软件可以轻易扩散和逃避监测。到目前为止,美国的努力更集中在通过出口管制限制半导体和半导体制造材料的供应(尽管出口管制不一定是建立信任的措施)。这些管制主要针对两个国家:因入侵乌克兰而受到制裁的俄罗斯,以及2022年美国国家安全战略中认定为“唯一有意图和日益增强的能力重塑国际秩序”的中国。 然而,算法改进、微调、广泛可获得的消费级LLM API以及开源替代意味着硬件管制不太可能足以预防滥用。此外,尽管技术拒绝可以约束任何特定国家的选择范围,但它并不能解决各国利用现有技术的行为问题。总而言之,我们需要在硬件管制的同时,更多关注建立有效的国际治理与合作,共同应对AI在软件和应用方面的快速进步所带来的风险与挑战。
3.3 内容溯源和水印
内容溯源和水印技术可以帮助披露和检测AI生成内容,在国际危机中建立使用生成内容的规范,减少误解。溯源和水印可以提高可追溯性,减轻各方对AI生成或编辑内容来源的担忧,增进信任。如果经过了对抗操纵的适当审查,各国可以验证其他各方部署的AI系统是否遵守约定的准则或限制,这将更容易处理任何潜在的违规行为。
内容溯源是正在进行的、政治上非常相关的研究、开发和采用领域。例如,内容溯源和真实性联盟(C2PA)的成员包括Adobe、Microsoft、英特尔、BBC、索尼和Truepic,是一个由行业牵头的倡议,旨在为确立媒体内容的来源和历史制定技术标准。该联盟成立的目的是应对“网上误导信息泛滥”的问题,它还为开发者提供了一套技术规范,并制定了指南来帮助用户推断媒体内容的溯源。
根据C2PA的规范,溯源方法可以分为“硬”绑定和“软”绑定,前者包括将唯一标识符应用于数据资产和其他加密方法。例如,使用加密绑定溯源的C2PA清单可以包含有关内容来源的信息(例如用于创建内容的AI模型和版本),以及对内容随时间进行的编辑。在本文的篇幅内全面调研AI溯源方法是不可行的,但它非常值得进一步研究,以确定哪些方法可以应用于改善国与国之间的互动,以及这些工作如何相互补充。总之,业界和学界在内容溯源技术的创新与应用方面做了大量工作,但要落实到国际层面,各国还需要加强合作与协调,这需要一个渐进的过程。
目前使用最广泛和最容易获得的AI披露方法之一是“水印技术”(C2PA将其描述为“软”绑定,因为与“硬”绑定相比更容易被破坏)。水印技术涉及在AI系统生成的输出中嵌入低概率的标记序列,这可以作为一种验证机制来确认AI生成内容的真实性和完整性。水印是可追溯的,这意味着它们可以使各方将AI生成的结果追溯到其来源系统,从而使利益相关者能够识别是哪个AI模型被使用以及谁负责部署它。
然而,水印也伴随着一个严重的限制:它们不是防篡改的。例如,不法分子可以使用“释义攻击”来移除文本水印,伪造隐藏的水印签名,甚至在真实内容中添加水印。因此,水印技术需要与其他安全措施相结合,比如多种水印嵌入技术的组合使用、区块链存储等,来提高其抗篡改能力和可追溯性。此外,建立水印使用和验证的国际标准与规范也很关键,这需要各国通过 dialog 和合作来实现。总的来说,内容溯源与水印技术为可信AI的负责任使用提供了重要手段,但还需进一步创新与完善,并在国际层面达成共识,才能发挥其应有的作用。
大语言模型的水印技术仍处于初级研究阶段,该技术目前主要用于光栅图像,尽管AI图像的水印技术也面临许多限制。现在公开可用的许多AI图像生成器已经配备了水印技术,但这些方法可以通过对图像进行后处理来实现对抗规避。例如,一些AI图像的水印可以通过JPEG压缩去除。因此,来源工具应经常进行红队测试,以验证它们抵御对抗篡改的恢复能力。C2PA提供了安全指南,以保护免受试图篡改来源方法的攻击者。
正如Vox Media的调查显示,78%的美国成年人认为AI生成媒体应该明确披露,水印技术确实受到公众欢迎。最近AI公司向白宫作出的承诺中,图像和音频的溯源和水印也突出体现。但从商业和政治角度,披露方法的采用也可能具有争议性。首先,小型开发者可能没有资源投入和应用溯源和水印技术。因此,应鼓励开放的溯源标准和AI检测技术的开源,以帮助降低安全成本。其次,AI开发者也可能不愿在图像上使用水印,以免疏远消费者。第三,正如网络安全领域所见,国家更倾向于某些技术,就是因为恶意行为难以追溯到交战方。
国家经常利用技术和政治上的模糊地带判断什么算“升级”军事行为,以便它们可以继续在不触发战争的阈值下进行冲突并避免归责。各方也可能出于同样原因利用生成AI,因为目前不清楚这样的模型使用对竞争国家的解释。虽然基础模型的普及意味着各开发者不太可能均匀地应用溯源和水印,但国家可以承诺甚至单方面在外交和安全活动中使用这些技术。总之,内容溯源和水印值得继续推动,但需要认识到其局限性,并在国际层面建立应用规范和最佳实践。
3.4 政策和程序
国家可以共享有关确保AI系统安全的流程或程序的信息,而不是提供可能使用的模型和系统的信息。这可以涉及共享用于验证和验证AI启用系统的基线测试和最佳实践。由于安全保证通常是一个双方都希望达成的目标,一些人甚至设想,开发基线测试技术和程序可能会成为盟友和对手的合作努力。除了测试外,公布获取和批准AI启用系统的政策和程序也可以提供置信度,即系统是负责任开发的,而不会泄露知识产权。这可能涉及披露如其他安全关键系统所存在的安全完整性水平等最小性能标准。
一种透露潜在敏感信息甚至更少的选项是,公开命名负责批准开发、获取和使用潜在令人担忧能力的责任方。即使只是定义需要那些额外批准的能力也有助于提供一些明确性。DOD指令3000.09没有满足所有倡导者,但它在围绕这些问题提供明确性方面取得了进展。总之,国家应该考虑共享AI系统验证、审批程序等信息,建立负责任的研发文化。与直接披露模型和系统相比,这种做法可以在维护国家安全和提高透明度之间寻找平衡。这需要国际社会的持续合作与沟通,以促进共同理解和创建可信的国际AI治理体系。
四.合作、协作和整合
当然,上述许多措施需要AI实验室和政府 mutual 合作,以应对最直接的风险。各方可以协调安全活动,以建立信任和相互学习。在高信任环境下,这些活动可以促进军事能力的透明。在低信任环境下,即使组织模拟演习也很困难。
4.1 合作性红队演习
工作坊参与者倡导合作红队,与拜登政府关于负责任AI创新的最近声明(碰巧)一致,其中特别强调了“对生成AI系统的公开评估”。美国目前正在开发合作红队作为一种公共透明度和多方利益相关者活动,将在2023年DefCon上举行。活动包括几家公司的参与,包括谷歌、Hugging Face、微软、英伟达、OpenAI和Stability AI。类似的多边演习也存在于网络安全领域,例如北约网络防御卓越中心每年举办的“锁定盾牌”演习;2022年,这场红蓝对抗演习吸引了来自32个国家的2000多名网络专家参与。与发现网络系统漏洞不同,基础模型红队主要是发现能力,对机器学习背景要求不高。反过来,红队活动可以通过让相关利益方了解基础模型的风险来提高应急准备性。
4.2 桌面推演
桌面推演汇聚利益相关方模拟和讨论他们对潜在事故或看似难以解决的问题的回应,从而提高危机准备性和联合计划能力,减少真实世界冲突中误解的可能性。桌面推演还可以增强协调性;各国可以更好地理解彼此的应急程序,找出响应机制或能力需要改进的领域,并分享最佳实践。竞争对手之间的桌面推演,如在第二轨外交背景下进行,可以提高对意图的相互理解,并提出可能没有考虑过的风险或情景。
与红队演习一样,国际论坛可以作为这些活动的主办方。北约网络防御卓越中心可以在“锁定盾牌”中整合基础模型来探讨网络漏洞的前景,而联合国裁军研究所(UNIDIR)可以进行与辩论自动武器系统问题的目标相关的红队演习。因为桌面推演通常作为教学工具,它们也可以被视为一种“培训和教育”的信任建立措施。
4.3 数据集和评估结果共享
数据集共享允许不同实验室之间集成安全标准。这与事件共享不同,AI实验室可以通过共享关注识别和解决AI生成输出中的安全或伦理问题的数据集来合作“拒绝”。在基础模型的背景下,“拒绝”是指AI系统由于安全或伦理问题主动不生成输出或不响应用户查询的实例。当请求的输出可能导致有害后果、促进错误信息或违反AI开发者设置的伦理准则和政策时,就可能发生这种情况。共享这种数据集可以帮助开发更强大、一致和负责任的AI系统。
在国际安全领域,这些数据集可以包含与双用途科学信息相关的信息,并且可以在各方之间合法共享,例如在化学、生物、放射和核科学(CBRN)领域。红队演习已经证明,LLM与CBRN的互动可以引入新的扩散途径,可能会赋予非国家威胁行为体权力。
数据集和评估结果共享确实存在局限性,特别是与国家安全等问题相关的方面。这些局限性涉及双用途项目的监管、拒绝的技术缺陷以及基础模型的预期未来改进。一些科学信息受到监管,以防止扩散可以用于武器扩散的信息。例如,美国的《国际武器贸易条例》(ITAR)对美国军火清单(USML)上的技术的进出口进行了控制。USML包括一些双用途技术,法规包括关于向外国行为体分发这些技术信息的规则,这为红队演习和安全缓解措施的开发增加了一层复杂性。因此,许多实验室通过对非管制信息进行红队演习来避免此问题。
更一般来说,目前还不清楚模型是否会在未来“发现”新的生化化合物,如果会的话,这些发现是否会引入新的安全漏洞。拒绝针对的是已经被发现的能力,这意味着它们在生化发现领域是一个强大但有限的解决方案。尽管存在这些局限性,但共享包含公开但有时难以找到的信息的数据集仍有益处。因为这些数据集中包含的信息是公开的,所以今天进行数据集共享试点与推迟进行相比是一个风险相对较低的尝试,主要障碍是利用科学人才进行能力发现。相比之下,如果基础模型在生化发现中发挥更大作用,未来的数据共享可能是一个高风险活动。与所有信任建立措施一样,数据集的共享体现了对透明度和负责任的AI开发的承诺,这可以帮助不同国家的AI实验室、政策制定者和公众建立信任。
五.结论
国家通常不愿限制自己的技术能力。当面对加剧的国际竞争和新技术带来的不确定性时,这一点尤其如此。然而,军方对AI的兴趣,以及越来越多地针对基础模型和生成AI能力的兴趣,加剧了建立国家行为国际行为准则的紧迫性,正如《人工智能和自主系统军事用途政治宣言》所说明的那样。如Rebecca Hersman在她关于新兴技术可能引发的新的升级动态的工作中指出,“与传统的升级概念不同,后者暗示从低级危机到全面的核战争存在线性和有点可预测的模式,这个新时代战略竞争中的升级途径将更难以预测。”
尽管信任建设措施不是解决国际系统各种不安全感的完整解决方案,但它们确实提供了一套减少由误解和计算错误导致的暴力冲突可能性的选择。虽然此次研讨会的主要目的是思考解决方案,但与会者确定了一些可能破坏信任建设措施采用可行性的风险。首先,与会者强调了技术人员和政策制定者之间的信息差距。政治的速度 - 特别是外交 - 通常落后于能力发展的速度,加剧了与新兴工具步调一致建立适当信任建设措施的挑战。如果政策制定者不了解本国境内存在的能力,他们可能会在与其他国家的同行进行谈判或提供保证时遇到困难。
与会者呼吁增加坦诚的多方利益相关者对话,以缓解这个问题。虽然AI信任建设措施研讨会提供了一个空间来讨论基础模型对国际安全的影响,但多方利益相关者的机会目前主要是零星的,依赖自愿贡献者组织这些通常时间 consuming会议的举措。
第二,关于谁来协调这些信任建设措施的实施和采用,有不同的选择,每种选择都有权衡和缺点。例如,事件共享不仅需要资金,还需要一个可靠的第三方,具有足够的员工来管理入口和确保数据库质量。与会者建议各种机制来解决这个协调问题,从在现有政府机构内增加新的办公室,如美国科技政策办公室以及其他国家的类似机构,到成立监督遵守情况并为参与国家和实验室分配利益的国际机构。
两个沙盒小组独立注意到“AI的IAEA”这个经常使用且可能有问题的类比作为一个可比实体。与会者建议,遵守监测和验证规范的国家可以获得进入数据池的机会,首先可以进入测试和评估(T&E)基础设施,然后可以获得数据访问权限和补贴以支持初创公司的T&E基础设施,进一步推动该领域的创新和进步,特别是在安全研究方面。然而,对于像美国和中国这样已经数据丰富的国家来说,仅仅聚焦于数据共享的激励可能是不够的。
第三,哪些激励措施可以促进不同国家对信任建设措施的讨论和采纳还不清楚。各国之间军事和技术能力的差异可能会对信任建设措施产生抵制,因为一些国家可能认为信任建设措施会让它们受到不成比例的不利影响,仅仅的数据共享激励可能不足以消除这种看法。这种看法可能使承诺在近期进行更具侵入性的监测和验证在政治上不可行。国际关系学科中已经建立了关于参与国际协定和武器控制的合理性、规范性和心理基础的文献;这些文献为开发能够针对基础模型信任建设措施采用的激励措施奠定了基础。
尽管跨国协调存在挑战,但针对基础模型的信任建设措施对国际稳定仍然重要。本文中的一些建议已经正在作为消费者保护而开发,这意味着剩余的大部分工作将是说服各方——无论是私营还是公共部门——采用信任建设措施将有利于国际安全。同样有希望的是,在国家与国家之间的竞争紧张局势下,政府、科技公司和公民社会对国际AI协调的呼声日益增长。这些呼声为跨国公民社会和科学界之间的对话创造了一个开端。随着非政府行为体在引导具有全球影响的技术方面发挥越来越大的作用,许多减少误解的社会技术解决方案需要在技术层面实现,并与私营行为体合作。
评论留言