面对人工智能的机遇挑战,技术的发展和应用选项
可获取的数据和算法
现今的人工智能面临着各种透明度挑战,包括算法的可解释性、作为商业策略的不透明性以及我们是否在与人类还是与人工智能进行互动的不确定性。在这里,我们提出了一些技术措施,可以使数据和算法对各种参与者更加可获取,包括当局、用户、研究人员和开发者。
- 对代码进行注释。软件工程师传统上会在代码中添加注释,以解释软件的每个部分是做什么的,以及它是如何做到的。虽然有人认为良好的代码应该自解释,但良好的注释(或者在适当的情况下,单独的手册)将提高其他开发人员以及审计员等在未来需要理解算法运行情况的可访问性。
- 利用可解释性机制。虽然自解释的人工智能仍然是一项推测性技术,但现有的机器学习算法决策分析工具可以用来检查这些算法是如何做出决策的。这些工具包括评估哪些数据输入对算法进行形成的影响最大,哪些特征对其决策产生的影响最大,以及要想引起算法决策变化所需的输入更改种类。虽然这些工具并不十分用户友好,大多数情况下仅用于"调试"目的,但它们可以帮助开发人员了解他们的算法工作原理,供专家审计员检查是否符合规定,或供研究人员探索应用的潜在影响。
- 支持开源和创意共享。通过公共采购和研究资助,可以支持开源和创意共享等可获取数据和算法的倡议。此外,它们可能还会受益于更多的保护,以防止非法使用,例如当算法或内容被用于商业目的时,未能尊重其许可条件。
- 促进平台间的可移植性。在诸如社交媒体等服务领域创造一个竞争市场,可以让个人更好地控制其数据的使用方式,并在该领域培育更具响应性和责任感的实践。《通用数据保护条例》赋予公民权利,可以获得由平台持有的关于自己的可读、可移植数据副本。进一步措施可能包括支持开放标准和开源开发,以推动新一代可互操作平台的出现,使用户可以无缝地更换平台而不丢失对其联系人或数据的访问权。
- 开放API。应用程序编程接口(API)是应用程序与大型平台和系统互动的访问点。更开放的API可以让第三方访问数据(例如在社交媒体平台上存储的内容)并生成软件(例如与系统配合工作的应用程序),而更封闭的API则可以为平台或系统的所有者保留更大的控制权。大多数API都有严格的访问限制,需要预先批准,即使是由已经确立的研究人员和进行调查的当局提交的项目也不例外。一些研究人员和公共当局不得不通过使用常规用户账户浏览平台来"抓取"内容,尽管这违反了服务条款,且数据可能是非法、不道德和质量较差的。采取措施,使研究人员和公共当局更容易获取数据可能有助于确保人工智能开发是值得信赖和合法的。这可以通过更开放的API,特别是面向研究人员、记者和公共当局的API,或通过更彻底的重新配置数据控制方式来实现。
- 设立数据信托。为了增加信任并应对数据分享中利益和风险不平衡问题,可以设立数据信托。数据信托是合法和技术性的结构,使大量高质量数据可用于开发人工智能,同时维护提供数据者的权利、偏好和利益。目前已经在各种案例研究中进行了试点研究,根据结果,可以通过公私合营进一步推进这一工作。这些试点可以从低风险、高效益的由不同当局提供的数据开始,例如交通和污染指标,然后逐渐过渡到由用户提供的更多关于他们健康或习惯方面的个人数据。获得信托数据的权限可能取决于是否遵守透明度和问责制原则。如果他们的数据具有足够的价值,它们可以提供强大的支持,以推动负责任的数字化实践。
优质数据和算法
为应对机器学习算法中的偏见挑战,我们在之前提出了一些从训练数据中消除偏见的方法。这些措施是改进数据和算法质量的更广泛努力的一部分。某些应用需要接近完美的数据质量。例如,在拥挤的公共场所中使用一个99.99%准确率的大规模筛查工具来识别嫌疑人,每天仍然会产生数十个错误的阳性结果。良好质量的算法需要高质量的训练数据。然而,全面的高质量社会数据也会反映这个社会的偏见和不平等。因此,在这些偏见和不平等在社会中得到减少之前,技术选项局限于识别和凸显数据和算法中的偏见,并通过保障和谨慎的应用来减少其影响。
- 避免"垃圾"数据。计算机科学中的老格言"垃圾进,垃圾出"越来越真实。它指的是输入(例如训练数据)的质量和输出(例如算法及其结果)的质量。可以从社交媒体和其他各种来源中收集大量数据,但是虽然这些数据廉价且易得,但并不总是代表性、准确或适用于特定目的。例如,社交媒体内容和位置数据越来越被用作社会现实的代理,例如"绘制"社会观点或"追踪"人与人之间的实际接触。然而,这些数据通常不适合这些目的。社交媒体账户并不能代表整个社会(实际上,许多账户只是机器人),它们作为公共观点的一个衡量标准经常被新闻机构和政治行为者高估。同样,位置数据可能不可靠,并忽略了墙壁和楼层等重要特征。使用"未经加工的数据"还可能违反版权、知情同意或处理和储存被禁内容的规则。标准可以在改进数据质量方面发挥作用。例如,FAIR格式(可查找、可访问、可互操作和可重用)可以应用于新数据和旧数据,以支持质量控制。
- 去除数据标签。谷歌的图像识别API不再包括有性别标签的类别。因此,例如,工程师的图像不会有"男性"等有性别标签。有人提出,通过这种方式去除标签可以有助于减少算法偏见,例如对工程职位候选人的女性进行短名单选择时的偏见。然而,机器学习的优势在于它能够找到自己预测数据趋势的新方法。如果性别是以前人类决策的一个区分因素,算法可以学会在使用它来进行区分之前预测这一特征。风险在于,通过去除标签,数据和算法中的结构性偏见并没有被消除,而只是被隐藏起来。如果发现数据和算法中存在偏见且无法真正去除,则最好突出其存在并限制其使用方式。
- 评估数据质量。可以采用工具来识别数据质量问题,如错误的数据标签、不适当的偏见、非法资料(包括未经同意收集的信息)或"假新闻"。根据系统的情况,材料可能会被自动删除,或者被标记为人工审查。这些工具的困难之处在于它们也是有偏见的,这种情况下是针对不符合其质量定义的数据。质量定义反映了不一定总是被普遍接受的观点。特别是在诸如竞选信息、新闻和错误信息之类的材料方面,这尤为明显。因此,需要合作开发这些工具,并持续进行测试,以避免被操纵或过度使用。
- 认识到局限性。反映结构性偏见的数据,在具体领域的完整性、准确性和无偏性是不可能同时实现的。在这些情况下,重要的是认识到这些偏见,并确保算法不在不适合的领域和功能中使用。
谨慎应用
有技术原因导致人工智能不能用于执行某些任务。虽然人工智能在模式匹配和识别广泛统计相关性方面表现良好,但它无法执行其他任务,例如预测个人社会结果。事实上,一些滥用算法的最严重例子来自于将算法用于不适合的任务,比如预测个人是否会再次犯罪或在工作中表现良好。在更广泛的范围内,将启用人工智能系统融入基础设施可能引入新的漏洞。目前,市民最直接接触到的是用于内容分发的人工智能,通常旨在销售产品和观点。如果人工智能的发展是为了提供深远而实实在在的社会福祉,而不仅仅是微小的效率提升,特别是当成本和收益分布不均时,那么提倡人工智能的理由将更为强大。
- 限制某些技术或应用领域。已经强调不适合将人工智能用于司法、警务和就业等领域。然而,这些领域内并不是所有人工智能应用都存在风险。例如,在司法领域,有许多无争议的应用,例如支持案例法律分析或法律访问。欧洲司法效率委员会将使用人工智能的情况分为应鼓励的、需要重要方法预防的、需要研究的,以及只有在极端情况下才应予以考虑的情况。同样,面部识别等有争议的人工智能技术在公共场所的大规模识别等环境中被视为完全不可接受,但在解锁手机等其他情况下则可以接受。
- 采用基于风险的方法。有很多方式可以定义哪些应用属于高风险,并对这些情况采取哪些措施。欧洲委员会目前正在研究高风险应用的定义,参考因素包括具体的应用和部署的领域,特别关注这两个因素如何结合产生对市民的严重风险。有些应用(例如使用生物识别数据进行远程识别)或领域(例如招聘过程)可能总是被视为高风险。被认为高风险的人工智能应用可能会承担更大的责任,例如进行影响评估和严格的责任规则,而那些被认为风险极高的情况可能会受到暂时或永久的禁止。
- 评估系统漏洞。将人工智能嵌入我们的基础设施中可能会引发新形式的系统漏洞。欧洲目前正在建立5G网络,以支持大规模的物联网连接设备网络,这将实现新的工业和社会数据产生方式。随着我们依赖这些网络和新的数据驱动服务,我们可能更容易受到由能源短缺、网络攻击和其他意外故障和副作用引起的干扰。通过采取措施增加恢复力,避免束缚,保持战略资源和专业知识的自治,可以对抗这些漏洞。
- 优先考虑具有真实社会价值的应用。尽管经常提到人工智能的深远好处,但大多数市民对人工智能的实际体验局限于相对琐碎的好处,而对企业而言,部署主要集中在聊天机器人和效率工具方面。即便如此,实际实施效果也远远落后于承诺。而且,好处主要集中在服务提供者和特权群体,而成本则由已经边缘化的群体承担。继续这种趋势可能导致人们对人工智能的幻灭。为了促进广泛支持人工智能发展,重点应优先考虑应用来应对重大挑战,并为个人的健康、环境、工作和个人生活提供真正明显的直接利益。
利用现有的“技术解决方案”
“技术解决方案”通常是一个带有贬义的术语,指的是对问题采取的技术性解决方案,通常是由先前的技术应用所造成的问题。然而,在某些情况下,人工智能可以被部署来应对由人工智能带来的挑战。
- 自动标记。人工智能工具可用于识别滥用情况,例如违法行为、深度伪造、传播错误和虚假信息以及网络犯罪。识别结果可以触发供应方的响应,例如自动删除内容或通知人工主管,也可以在用户端提供有关问题以及应对方法的信息。此类工具还可用于识别和警示用户不公平条款,例如数字产品和服务的条款和条件中的问题。随着数据流量的增加,这些工具越来越被视为唯一可行的有效监控手段。然而,目前这些工具主要由雇主和供应商使用,而不是用户,而且它们所执行的标准可能并不总是透明或普遍接受的。
- 停机开关。算法可以设计为嵌入式机制,让人类可以随时立即停止自动化活动。这种停机开关或“大红按钮”对于存在物理损害风险的机器人系统是标准做法。它们的软件应用需要在合法使用方便和防止恶意使用之间保持平衡,同时包括安全存储系统状态和终止之前的过程日志等特性。这类工具的一个问题是,它们被设计用于在严重问题可见时使用,这可能为时已晚。因此,停机开关应被视为最后的应急机制,用来补充持续监测和预防措施。
- 重新校准个性化。某些形式的个性化,例如政治广告和个人定价,可能会带来潜在的有害副作用。有几种技术响应措施可供选择,包括关闭它们,使其成为可选项,允许用户为自己选择个人资料,以及保持完全透明和可访问的价格优惠、活动材料和其他个性化内容目录以及它们的目标受众。
- 红队和白帽。白帽是寻求识别漏洞以便修复的黑客,他们可以成为部署在攻击或批评系统的“红队”的一部分,以改进系统。这些团队可以包括已被用于恶意目的的人工智能工具,并且可以用于对人工智能系统和应用进行建设性批评。
发展投机性的“技术解决方案”
将技术解决方案的概念推进,可能有可能开发出新的能力,超越当今人工智能的范畴,以应对当前和投机性的人工智能挑战。
- 自我解释的人工智能。目前正在努力开发能够准确理解并以可理解的方式解释其决策的人工智能。目前,ANN的详细配置提供了其输出的唯一完整解释。然而,这些解释对人类来说过于复杂、抽象和耗时。可信赖的自我解释人工智能可以揭示自身的错误、偏见和局限性,应对之前提出的透明度挑战,并使其更适合关键决策支持角色。这可以支持系统的验证和改进,也可以使其符合法律要求和社会价值观。虽然与未来人工智能的“巨大愿景”相比,这样的发展似乎相对较为温和,但它仍然超出了当前人工智能发展的范式,并可能在中长期内难以实现。
- 社交人工智能。可能有可能发展一种新的人工智能范式,其定位是支持人类并良好地嵌入社会系统。其算法和决策将从一开始就可以接受争议,并且其结果不会呈现最终决策,而是一系列选项以及它们相关的影响(带有概率)和结果的基本逻辑。
- 自我识别的人工智能。对于知道何时与人工智能代理进行交互以及其他与未识别的人工智能输出相关的问题,例如深度伪造,一种投机性的技术解决方案可能是创建一种水印,贯穿人工智能系统的输出,以向用户和其他系统标识其来源。水印需要适合输出的格式,例如声音、文本、图像、视频和由人工智能组成的算法。
- 隔离的人工智能。为了应对投机性的无人控制的人工智能挑战,有人提出了人工智能可能被“隔离”,限制其与世界的互动。这可以通过完全将其与互联网等其他基础设施分离,将其限制为单向信息流,或限制其产生可执行命令来实现。针对一个真正先进的超级智能体可能会超越任何普通人智能的担忧,有人建议这样的系统可以被设计成一个只能回答特定问题的预言机。
评论留言