随着人工智能技术的发展,基于深度学习的生成式人工智能模型成为学界研究的热点。这类模型利用大量现有数据进行深度学习,实现人机交互。其从数据收集、处理及使用等整个生命周期都存在数据泄露的风险。因此,可从数据安全和隐私保护的法律责任、数据来源和用途的合法性和合规性、数据透明度和可解释性三个角度,结合案例与相关研究,探讨人工智能模型中数据泄露的法律问题与影响。研究表明,实践案例中现行法规难以涵盖人工智能数据泄露的新问题。为解决该现象,监管者、数据控制者和使用者三方主体应共同努力营造数据安全与使用合规的环境,加快构建人工智能法律框架,推动相关立法,是应对数据泄露与推动人工智能发展的关键。
引言
数字时代,数据已经成为一种重要的资源,特别是随着人工智能(AI)和大数据等新兴技术的进步。尤其是人工智能领域在深度学习技术的飞速发展,使得神经网络模型具备了处理海量数据并完成复杂任务的能力。以ChatGPT模型为例,它可以通过学习大量现有的文本数据(如网站、社交媒体平台,新闻报刊等)进行模型训练和内容生成,实现开放领域对话中的智能人机交互。然而,在ChatGPT爆火的背后,也出现了新的法律问题,尤其在数据泄露方面。人工智能对数据日益增长的依赖性增加了数据泄漏的可能性和风险,这给人工智能法律框架的构建带来了严峻挑战。阿西莫夫在科幻小说中所提到的“机器人三定律”——“机器人不得伤害人类、机器人必须服从人类命令、机器人必须保护自己。”为实现人工智能的科学发展和合理使用构建了基础的逻辑架构。该框架以保护人类安全和确保机器人作为人类工具服务为核心原则,强调人工智能技术应当服从和服务于人类,不得损害人类利益。在现实社会中,各国也通过制定多部法律法规来规范人工智能模型的数据使用,诸如我国的数据安全法、个人信息保护法、网络安全法以及欧盟的通用数据保护条例等。相较于科幻世界,现实社会中对于人工智能模型数据泄露的问题尚未得到很好的解决。在人工智能模型的开发和应用过程中,涉及大量用户个人信息和隐私数据的收集与使用,一旦这些数据泄露,会给用户个人及企业的数据安全和隐私构成严重威胁。由于人工智能算法对数据的严重依赖,如果人工智能模型使用的数据来源不合法、数据用途不合规,如通过非法手段获取个人信息、将个人信息用于商业广告等非法用途,就会出现数据泄露和滥用的问题。此外,采用深度学习、神经网络算法的人工智能模型往往被视为黑箱,其决策过程缺乏透明度。这种透明度的缺乏使得相关机构和企业无法根据用户要求,向其解释模型运作机制与原理,无法给出解释模型生成结果的理由。这使得模型结果的可解释性成为难题,导致数据泄露事件中的技术责任难以界定。鉴于此,本文以ChatGPT模型为例,从数据安全和隐私保护、数据合法性和合规性、数据透明度和可解释性三个不同角度,分析了人工智能模型中的三个关键主体,即监管者、数据控制者和使用者在数据泄露问题中的潜在责任。在借鉴国内外案例和学术研究的基础上,为三方主体在防范人工智能模型中数据泄露方面的法律风险提出思考和建议。同时,对构建人工智能法律框架进行探讨,探寻我国人工智能基础性立法方向,以应对人工智能技术发展过程中出现的各类法律问题。
一、人工智能模型中数据泄露的可能性和危害
(一)ChatGPT模型的概述
ChatGPT(全称“Chat Generative Pre-trained Transformer”)是由美国OpenAI公司于2022年11月开发并推出的一款基于对话的人工智能聊天机器人模型。该模型是一种基于Transformer的预训练语言模型,能够自主学习和理解大规模自然语言数据,并根据用户的聊天对话内容,综合模型中存在的现有数据生成符合上下文和用户意图的对话回复。据美国OpenAI宣称ChatGPT模型对来自互联网的570GB文本数据括书籍、文章、社交媒体等进行采集、处理、储存和分析等训练。从类别上看,ChatGPT模型属于“生成式AI”(Generative AI)的范畴。它是生成预训练转换器文本生成AI系列的最新发展。不同于过去的“分析式AI”(Analytical AI),这类人工智能模型不仅可以通过对数据的学习来提炼信息、预测趋势,还能生成不同于学习样本的新内容。基于此,ChatGPT模型对各种问题产生的类似于人类且准确的对话能力使得其在短短两个月内就达到了100亿用户且该数据还在不断增长。中信建投证券在《GPT4及ChatGPT相关应用梳理》研究报告行业动态报告中显示ChatGPT模型其应用场景包括代码生成、文本生成、图像生成等多方领域,并以ChahtGPT模型为框架产生了不少商业化产品,如Brex Empower的金融科技平台、Dynamic365是微软推出的企业服务平台、Power Platform是微软旗下的开发者工具、Jasper等。这些商业化产品主要基于的是以语言为媒介的GPT模型框架,如上述提到的Brex基于OpenAI技术研发的Brex Empower平台,它可以基于用户的描述及现有的语料库获得对应的财务信息并对其处理分析,生成报表并提供相应建议,简化企业日常工作流程。商业领域中不论是A端、B端还是C端,人工智能模型都在被广泛运用。而OpenAI最近发布的GPT-4多模态预训练模型,它可以同时支持图像与文字输入来生成内容,再通过文字给出正确的文本答复,打破了ChatGP只能键入文本提示的限制,在多个不同的应用场景中展现出强大的能力。GPT-4能够在理解图像内容后,给予用户建议,达到“看图说故事”的效果。用户给出图片中的原材料并追问“我可以用这些原料做什么?”,GPT-4可以给出根据图中原材料所做成的食品,如华夫饼、蛋糕等。可以说,这使得ChatGPT模型从单一语言模型转变为多模态模型,为其带来了更广阔的应用前景。而人机交互也因为ChatGPT模型的出现而变得更加紧密和自然,这也为未来的人工智能技术深入发展开辟了新的可能。
(二)数据泄露对人工智能模型的主要表现
数据泄露是指个人或组织的私有或机密信息被有意或无意地泄露到危险环境中。这种情况往往与黑客入侵、有组织犯罪、政治运动或国际竞争有关。当然,它也可能由于员工的疏忽、违规使用或不当处理数据信息而导致。数据泄露事件意味着个人信息、商业机密或其他敏感数据被未经授权的获取或公开。ChatGPT模型作为生成式人工智能模型,需要依赖于大量的现有数据进行训练和优化,这些数据可以是文本、图像、音频等各种形式。包括GPT-4都需要借助大量的数据通过深度学习进行训练和调整模型参数,以便其能够识别、理解和生成自然语言。而语料数据库作为训练和评估自然语言处理系统的主要数据来源,能够使人工智能模型可以实现更加准确和高效的文本分类、情感分析、命名实体识别等任务。ChatGPT模型拥有来自互联网570GB文本数据的大规模语料数据库。庞大的数据语料库其本身价值不言而喻,在此基础上,ChatGPT模型可以涵盖众多开放性领域,使得其能在不同话题和场景下进行更加详尽的对话。但是,如此规模巨大的数据语料库本身就难以管理和防范,其中有仇恨言论、歧视性言论、虚假信息等数据。如果这些内容被不适当的使用,可能会导致负面影响或对用户价值观产生消极影响。且ChatGPT模型作为一种预训练语言模型,其内部结构和参数配置都被视为黑箱。这意味着用户无法直接查看或修改模型的内部工作方式,也无法了解模型如何进行文本生成、推断、分类等任务的决策过程。
在ChatGPT模型训练和使用的数据过程中主要体现在两方面。其一是训练数据,训练数据作为人工智能模型学习的重要组成部分,用于训练人工智能算法同时增加人工智能输出的正确率。ChatGPT模型的训练数据主要来源于互联网上所有公开可获取的数据语料库,包括新闻报道、社交媒体文本数据、平台用户发表文章等。据OpenAI宣称ChatGPT模型使用了超过8百万个英文网页的纯文本数据进行训练。这样海量的训练数据使ChatGPT模型可以学习到丰富的知识和语言表达,但这也意味着其隐藏着一定的风险。因为,训练数据中同样充斥着一些不适宜、不正确或有损道德的内容,如色情、暴力、歧视和谣言等信息。在人机交互过程中,ChatGPT模型可能会在对话中无意识地生成或传播这些有害信息,从而威胁到用户的利益,这让人不得不为其感到担忧。其二是数据收集,数据收集是人工智能模型根据用户需求收集的相关数据,用于后续的算法训练。通过处理这些数据,人工智能模型可以预测、分析用户的下一步计划。为持续改进ChatGPT的性能与个性化服务,OpenAI会让ChatGPT收集用户在使用模型过程中产生的数据,例如对话内容、搜索记录和浏览信息等,以用于训练和优化ChatGPT模型。对这些信息进行收集处理有助于ChatGPT持续学习用户偏好与兴趣,优化语言模型与响应质量。然而,用户可能会无意识地将隐私信息用于人机交互过程中,如用户真实姓名、邮箱、居住地等,这些信息可能会被ChatGPT模型收集并成为后续算法训练的学习素材。这些隐私信息的泄露滥用可能会给用户带来重大的损失。综上所述,尽管人工智能模型的训练和使用数据过程带来了许多优势,但也存在一些潜在的安全隐患。在注重人工智能模型人机交互体验及技术革新的过程中,对于数据泄露也应当采取相应的措施加以预防,防范数据泄露带来的风险。
(三)人工智能模型中数据泄露的法律影响
伴随着人工智能模型以海量的语料数据作为基础不断地更新迭代,不断地挖掘数据价值,其“智能化”的同时,也带来了许多不安定的因素如用户隐私权问题、商业秘密泄露问题、国家安全问题等。ChatGPT模型作为一种基于Transformer框架的生成式预训练人工智能语言模型,其训练与生成过程是无需人工监督与干预的。这一特征从本质上决定了ChatGPT模型是难以被有效监管与掌控的。它的准确度、客观性与中立性也无法得到系统性保证。每个使用ChatGPT模型的用户都像是它的实验样本,成千上百万的用户输入的那些看似无意义的对话中,却蕴含着海量的信息——用户个人的、企业平台的,甚至是国家机构的信息,全部有可能被ChatGPT模型收入自身庞大的语料数据库中。不论ChatGPT模型是在训练过程中、部署过程中还是在使用过程中,从ChatGPT模型的整个生命周期来看,涉及数据泄露的问题存在于各个环节当中,其潜在的社会影响与隐患是难以估量的。尽管Ope‑nAI在训练过程中对ChatGPT模型会进行一定程度的“修正”,试图保证其在涉及敏感话题如性别、种族与政治等领域的表述趋向于中立,但ChatGPT模型仍非绝对意义上的“道德理性”存在。当有人刻意加以引导或质疑时,ChatGPT模型也难以在复杂的伦理问题上作出恰如其分的判断,也无法对某些有害信息或建议予以有效遏制,从而导致它可能会给出一个趋于负面的回答。ChatGPT模型体现出人工智能技术发展的双刃性质。它作为一种自主学习的语言生成式预训练系统,蕴含着应用的广阔前景,但也意味着其监管难度与风险的增加。
1.用户权益与隐私影响角度
人工智能模型在收集、处理和储存数据时,用户的隐私在此过程中面临着许多不可控的风险。如何在保证人工智能更新迭代提高性能的同时最大限度地保护隐私问题,已经成为当前最具挑战性的话题。这一问题主要表现在两个方面。一方面,主要是源于人工智能领域特有的黑箱性,导致用户无法对其决策过程进行监督和控制,无法有效控制和保护自身隐私;另一方面,则是用户自身对于个人数据保护意识,如对数据使用条款不清楚或未采取删除数据等防护措施,导致数据泄露问题发生。对于前者来说,所谓的“算法黑箱”指的是在人工智能系统获取的输入数据与其生成的输出结果之间,存在着人类难以完全理解的中间运算过程。其作为人工智能可解释性研究的重点,是人工智能发展过程中亟待解决的伦理学与法律问题之一。然而,ChatGPT模型爆火以来,OpenAI至今都没有披露ChatGPT和GPT-4的模型使用的训练数据、如何训练,以及它的运作方式。在“算法黑箱”机制下,用户在使用过程中难以判断ChatGPT模型给出的结果是否来自合法渠道,也无法判断模型是否存在因对不同类型数据的依赖程度不同,导致输出结果产生较大的偏差或错误的风险。这源于数据来源的合法性问题,其会引发诸如知识产权、公民个人信息保护以及非法数据获取等一系列问题。数据作为用户与人工智能模型之间沟通的桥梁,语料数据的质量和来源对人工智能模型的表现至关重要。如果数据来源不明或获取方式不合法,那么在使用过程就难以符合现行的数据保护法规,同时因人工智能模型缺乏有效的监管,在数据采集和使用过程也会影响模型的准确性、合法性和可靠性也都会受到影响。这就意味着,人工智能模型在实际应用中难以充分保障用户权益,甚至可能造成用户隐私的泄露。对于后者来说,用户难以在使用人工智能模型前准确判断其个人数据、个人信息的收集与利用的情况。这使得用户的选择往往建立在与企业的信息不对等的基础之上,从而限制了用户对其数据的保护。因此,数据透明度问题会严重影响用户权益。针对这一问题,以ChatGPT为代表的生成式人工智能模型需要提高自身模型透明度,允许用户和其他利益相关者理解不同数据是如何影响模型输出。在国际上,各国出台了相关法规赋予用户对其个人数据的各项权利用以防范企业平台违规或超出授权范围使用用户数据的行为。被誉为是最严格的个人数据保护和数据监管条例的欧盟通用数据保护条例(General Data Protection Regulation,简称“GDPR”),条款中赋予了用户对个人数据的知情权、访问权、纠正权、删除权及数据可移植权等权利。其第17条明确规定了“删除权”,允许用户可以要求公司删除涉及其个人信息的数据。该条款通过确认数据主体的“删除权”,赋予用户在发现其个人信息被非法采集利用后要求停止此类侵权行为的权利保护手段。以及第20条规定了“数据可移植权”,该权利允许个人在不同的服务中获取和重复使用其个人数据,以用于自己的目的。“数据可移植权”的确认使得用户个人有权接收其个人数据并将其存储以供进一步个人使用,且允许用户管理和重复使用其个人数据。例如,用户个人希望从Web邮件应用程序中检索其联系人列表,以构建婚礼列表或将其数据存储在个人数据存储中。这意味着,用户个人信息的采集与利用不再限定于特定的企业或服务。此外,还有美国的加州消费者隐私法(简称“CCPA”)也同样赋予了用户访问权和拒绝数据销售权等选择权利,要求企业在使用个人信息时征得用户的授权。综上,如果不解决人工智能模型透明度和数据来源合法性问题,将难以保证数据来自合法途径,导致模型输出受个别不合规数据的过度影响。
2.企业平台责任和义务角度
企业作为直接的用户数据采集与处理的主体,企业对用户数据安全与隐私保护负有天然的义务。这是互联网企业运营的基石,也是企业与用户建立信任关系的前提。ChatGPT和GPT-4等人工智能模型在人机交互过程中需要收集和处理用户的对话记录、个人信息等数据,这些数据都储存在企业的云服务器当中。相较于用户而言,企业更有责任确保这些数据的安全和隐私不被泄露或滥用。鉴于此,国内外都制定了相关的法律法规,要求企业在收集、使用和保护个人信息方面承担法律责任。例如,中国的网络安全法和个人信息保护法等法律法规明确了企业在收集、使用和保护个人信息方面的法律责任。GDPR在数据保护方面则设定了更为严格的标准,要求企业在处理个人数据时遵循最小化、目的限制和保密性等原则,而CCPA也要求企业在处理用户数据时遵循透明度、公平性和安全性的原则。在这些立法规定的基础之下,企业相比普通用户个人而言,在保护数据安全与隐私方面负有了更大责任与义务。除此之外,在人工智能技术飞速发展的背景下,数据泄露不仅会影响企业与用户之间的关系,还会严重损害企业与企业之间的关系。
在人工智能模型的开发和应用过程中,数据的来源、处理过程以及输出结果都存在一系列问题。第一个是人工智能模型训练数据来源的真实性和合法性问题。人工智能模型的训练数据来源于互联网,其中不乏含有错误、虚假等信息。这些信息作为模型训练的数据基础真实性和合法性难以得到保证,再加上ChatGPT这类人工智能模型无人监管这一特征,使得人工智能模型在人机交互的回答时可能给出不准确、误导或违法的回答。在商业活动中,企业与企业之间的信息交换会涉及大量关键数据、客户信息、商业数据、第三方企业或机构的商业机密等,若依赖人工智能模型进行信息交互或业务决策,很可能出现误判的情况,从而对双方利益产生一定的影响。具体包括以下几种被泄露可能的情形。一是企业依靠人工智能模型收集数据时采集到了虚假、侵权的内容,损害自身利益;二是企业利用人工智能模型生成虚假的商业信息,从而误导与其合作企业,损害合作方利益;三是企业使用人工智能模型开发产品的过程中,模型无意识地窃取了企业关键数据,并通过模型输出泄露给其他企业或个人,导致企业的商业秘密被泄露或利用。在全球化背景下,跨国公司间的数据交流与合作更加复杂,不同国家针对信息安全和商业秘密的法律法规并不统一,法律制度的差异使得数据泄露的风险愈发突出。比如中国的反不正当竞争法与欧盟的商业秘密保护指令、美国的经济间谍法等虽然都规定了企业有义务对商业秘密与关键技术进行保护。但是,三者在保护范围、法律属性、保密标准与救济措施等方面却有所不同。这就需要企业在全球市场拓展中兼顾不同国家法律的要求,针对本地市场制定切实可行的商业秘密管理策略,在保护自身权益的同时避免引起法律纠纷。
综上所述,企业在使用人工智能技术及其应用过程中产生的数据与信息,往往蕴含着企业的核心竞争力与商业机密。这些技术或数据一旦被非法获取与利用,必然会严重损害企业的正常商业活动及市场竞争力,将直接威胁企业的技术优势与创新能力。其中最常见的就是信息安全和商业秘密的纠纷案例。如果企业没有采取有效的保密措施和监管机制,人工智能技术带来的信息安全风险将使企业面临更高的数据泄露风险。这可能会导致关键技术或商业机密被竞争对手或其他利益相关者获取、使用或披露,从而对企业的商业利益造成严重的损害,危害商业利益。
第二个是数据处理过程的可控性和安全性问题。人工智能模型在预训练及人机交互过程中需要对数据进行收集、处理和分析,整个生命周期都存在被恶意篡改、窃取或泄露的可能。首先,人工智能模型自身存在系统漏洞和数据源偏见等问题。系统漏洞可能导致模型被黑客攻击或恶意篡改,进而影响模型的准确性和安全性。数据源偏见则可能导致模型对某些数据的处理和判断存在偏差,进而影响人机交互的效果和公正性。这些问题给数据安全带来了严重的威胁,尤其是当模型被用于如金融、医疗等敏感领域时。就系统漏洞来说,与其他算法不同,人工智能模型通过神经网络算法所作出的决策并不为预定的算法前提所决定,并不是一种底层简单规则的叠加,而是从底层到高层的跨越,且无法通过底层算法来准确预测上层的表现。因此,人工智能模型做出决策无法简单归因于某些预定规则或算法,而是其在训练数据的基础上深度学习到的复杂模式与规律。人工智能模型的复杂性和难以全面监管的特点,使其具有更高的适应性、准确性和智能性。但这也增加了人工智能模型出现如算法歧视、算法杀熟和信息茧房等风险的可能。这些风险会导致人工智能模型在特定情况下出现不公平或不合理的结果,进而影响个人权益和社会利益。特别是ChatGPT这类生成式人工智能模型,在人机交互中不能完全排除其出现系统漏洞后被黑客利用导致数据泄露的可能性。事实上,在3月中旬,ChatGPT就出现重大的Bug致使近1.2% ChatGPT Plus订阅者的个人数据(支付相关信息,包括名字和姓氏、电子邮件地址、支付地址、支付卡到期日期以及客户卡号的最后四位数字)在无意中被泄露。其次,企业员工在工作过程中人为失误也会导致数据泄露的风险。虽然“人工智能替代人工”这一论述一直存在,但这并不意味着人为因素在企业信息安全与数据安全中不再重要。实践中已有多次发生过因企业员工在工作中人为失误而引发的数据安全事件。
第三个是数据输出结果的合法性和责任性问题。上述提及的系统漏洞、数据源偏见与人为失误等问题不仅影响模型准确性与信息安全,也直接威胁数据输出结果的合法性与责任认定。生成式人工智能模型在利用大数据和大规模分析数据等方面的优势,使其成为最先介入创作行为的领域。它通过深度学习进行文本生成,由于其算法的复杂性特征等因素,使得这些生成内容的版权归属与法律责任难以界定。学界对于人工智能生成内容的版权归属问题还未达成统一的共识,至于法律责任的认定也是学界的一大难题。在新闻采访、学术写作与商业创意等创作过程中,人工智能的介入使原有的知识产权归属与创作责任难以清晰界定。一方面,人工智能的判断与输出难以在技术上被完全追溯到个人,这难以将责任完全归咎于特定人员。另一方面,人工智能模型的开发者和运营企业也难免会面临创作结果的法律责任,尤其当输出内容与社会伦理相悖或侵害他人利益时。如果不解决人工智能商业应用的数据处理过程控制与数据输出结果的合法性的问题,将难以确保人工智能模型的数据处理过程以及数据输出结果的可控性与安全性,难以满足商业应用的合规要求与用户权益保障的需求。
3.现行法律法规及其不足的角度
在现行法律法规方面,国内针对人工智能数据安全问题出台的相关法律法规主要有强调对基础设施及个人信息保护的网络安全立法、重点关注了数据安全保护和监管的数据安全法以及规范并促进个人信息的合理利用个人信息保护法。国外主要有赋予个人对自己的数据控制权的GDPR以及赋予消费者对自己的信息控制权的CCPA等。这些法律法规赋予个人对自己的数据控制权以及消费者对自己的信息控制权。为了更直观地分析它们之间的共性和不足,本文将对网络安全法、数据安全法、个人信息保护法、GDPR、CCPA结合五部法律具体的相关内容与规定,进行概要性的对比,见表1。
表1
从表格中清晰地看出,它们在适用范围、数据主体权利、相关原则、法律责任四个方面都有一定的共性和差异性。其共性主要体现在。第一,规定境外数据处理活动的规定。它们不仅对本国内的数据处理活动进行了规制,还规定了跨境数据活动的处理,即在境外处理本地区或国家居民数据的活动,以及在境内处理境外居民数据的活动。第二,赋予数据主体权利。它们都赋予数据主体某些权利,如知情权、访问权、删除权等,以便个人能够对自己的数据有更多的控制和自主。第三,数据处理者的一些基本责任义务。它们都对数据和保护等级进行分类,并规定了数据处理者的一些基本的责任义务,如遵守合法正当必要原则、公开处理规则等必要措施,以便数据处理中能够对自己的数据活动负责保障数据安全。各个法律的共性在于都关注个人信息与数据安全的保护,并试图在技术变革的环境下规范数据的收集、使用与流通。但是,在具体规定中也可以清晰地看出它们之间的差异性。其一,适用范围不同。中国的法律适用于中国境内的活动,而GDPR适用于欧盟境内的活动和针对欧盟居民的活动。CCPA主要针对加州居民和在加州经营的企业。其二,数据主体权利范围不同。GDPR和CCPA赋予数据主体更广泛的权利,如GDPR的数据可移植性权利和CCPA的选择不出售或分享个人信息的权利,以及较高额的民事赔偿,与我国法规相比力度更大、用户权利更广泛。相比之下,中国现行法律法规并未明确授予用户如“访问权”与“数据可移植权”等关键权利。在ChatGPT模型火爆之后,国内互联网大厂相继推出了自己的AI聊天机器人产品,如阿里的“通义千问”与百度的“文心一言”等。人工智能产品的推出方便用户的日常生活与社交互动,但也带来一定的数据安全隐患。在相关法规不够健全的情况下,相关部门难以对用户的人工智能产品的数据使用行为实施有效监管,这增加了数据泄露带来风险的可能。其三,法律责任和处罚也有所不同。国内的三部法律都规定了民事责任、行政责任、刑事责任。GDPR规定了获取赔偿的权利即民事责任与责任以及行政责任,其本身没有规定刑事责任,但欧盟成员国可以根据自己的国内法规定刑事责任。CCPA规定了民事责任和行政责任。这些法律中,GDPR和CCPA对违反规定的行为设定了较高的罚款标准,如GDPR规定的罚款可能更高(最高为全球年营业额的4%或2000万欧元,以较高者为准),而CCPA的最高行政罚款为每起故意违反行为7500美元。可见相较于严密与细致程度较高的欧美法规,我国的法律法规还存在一些不足,但我国的法律也在不断地完善。如我国的个人信息保护法也对违法企业按照营业额营收比例收取罚款。其第66条中对情节严重的企业处5000万元以下或者上一年度营业额百分之五以下罚款等具体处罚。
但是,这五部法律中都缺少对于人工智能方面的具体规定。相反,这些法律更多的是利用因数据泄露、数据侵权等规则来规范生成式人工智能中数据泄露的问题。生成式人工智能模型在处理数据时可能会涉及用户隐私、商业机密等重要信息,因此需要特别的法律规定来保护这些信息不被泄露。以ChatGPT模型为例,其训练数据及模型参数的泄露可能导致用户隐私泄露、商业机密泄露等结果。如果ChatGPT生成的内容包含用户个人信息而该用户未事先同意该OpenAI使用这些数据信息,就可能面临违反GDPR与个人信息保护法等法律的风险,从而承担法律责任。但生成式人工智能的出现使得人工智能本身越来越像一个独立的法律实体。生成式人工智能模型数据泄露的影响程度与后果难以被准确评估,其训练数据来源也比较难以监管。针对这些问题,各国也在近段时间作出了相关规定,如国内于2023年4月10日发布的关于《生成式人工智能服务管理办法》(征求意见稿)、欧盟于2023年4月27日达成人工智能法协议为生成式AI设立版权规则、美国国家标准与技术研究院也于1月发布了《人工智能风险管理框架》(AIRMF)等。综上,现行法律无法完全覆盖人工智能训练数据的特殊性及数据泄露影响的不确定性。随着人工智能技术与应用的发展,传统法律角度将难以准确定位和规范人工智能带来的数据安全与隐私问题。对于如何确定人工智能侵权责任划分、平衡保护隐私和促进创新等方面,还需不断探索寻找法律与技术发展的最佳平衡点。
二、人工智能模型数据泄露的案例分析
(一)Clearview AI数据泄露事件
Clearview AI是一家专门从网络开源数据中大规模收集人脸图像并构建人脸识别系统的人工智能初创公司。该公司曾在未经用户同意的情况下,通过使用“爬虫”AI在Facebook、Twitter、Google图像搜索等网站上检索并获取超过200亿张人脸图片与相关数据。其创始人Hoan Ton-That坚持认为,该公司的使命是“帮助社区及其人民过上更好,更安全的生活”,并认为Clearview庞大的面孔数据库成功地帮助执法部门打击了“令人发指的”罪行。然而,Clearview AI未经用户允许大规模收集用户的脸部数据、个人数据等行为,已经严重侵犯了用户隐私权。Clearview通过“爬虫”AI收集的数据虽来自公开渠道,但并不意味其对这些数据拥有绝对使用权或可免除隐私保护义务。其在数据收集与使用过程中未能给予用户隐私权应有的重视,也没有遵守与第三方平台相关服务条款与使用协议,损害了用户和合作方的利益。作为数据控制者,Clearview在数据安全和隐私保护方面法律责任的缺失。公司忽视了个人信息和隐私权,也超出用户在上传图片时的合理期望,严重违反了相关的法律法规,损害了用户的权益。例如,欧盟的GDPR规定,数据处理者必须遵循合法性、公平性、透明性等原则,并征得数据主体的同意或其他合法依据。美国CCPA规定消费者有权知道企业如何收集、使用、共享和出售他们的个人信息,并有权拒绝或撤销他们的同意。
另外,该案例也涉及数据来源和用途的合法性和合规性这一问题。虽然Clearview的面部识别技术可以协助执法机构追捕嫌疑人。但是,Clearview AI违规收集用户信息数据的做法,本身就是违法行为。政府不仅不加以规制,反而还利用这些非法获得的数据进行办公,这实际上是对企业违规收集用户信息行为的默认与放纵。政府在监管上的缺位,也从侧面反映了实践中对于人工智能模型的数据来源与用途的监管尚不完善。作为数据控制者如何明确其在数据安全与隐私保护方面的责任,履行保障用户隐私安全与隐私的义务是一个急需解决的问题。
(二)韩国三星及OpenAI数据泄露事件
企业引入生成式人工智能标志着工作方式和流程的转变,其基于深度学习方法利用丰富的语料数据库实现了自动化完成重复性和繁琐任务的能力。这些任务包括自动生成报告以及自动化数据分析等,这种自动化的应用不仅提高了工作效率,还为工作结果的准确性带来了显著提升。但在使用生成式人工智能时,企业如何妥善应对数据处理的可控性与安全性问题是一个重要的问题。公司作为企业数据控制者,应对机密信息实施严密保护与管控。但事实上,员工可随意获取并泄露高度敏感数据,并将这些数据上传至生成式人工智能模型,使企业的商业机密信息处于一种随时被泄露的风险状态。此举不仅违反了公司的数据安全和隐私保护规定,而且这些信息一旦被竞争对手获取,将给企业带来严重的经济损失。这也反映出企业在数据监管与信息安全培训方面尚不完备。此外,其在数据处理过程的可控性和安全性方面也存在一定的问题。公司在引入ChatGPT模型时未能充分考虑到其算法黑箱性质所导致的透明度与可解释性问题,这增加了商业机密与关键信息在处理过程中遭到泄露或滥用的风险。公司与提供生成式人工智能服务的第三方OpenAI之间也未就数据使用范围与期限达成相关协议。因此,当员工在使用ChatGPT模型时输入关键信息以生成所需结果时,公司无法完全掌控在何种范围内被人工智能模型收入、保留和使用,加大了数据外泄的可能。虽然,OpenAI本身并未违反任何数据保护条例或直接参与信息泄露,作为ChatGPT模型的开发者和服务提供者。其在官网的隐私手册中做出了用户可以申请删除数据以及拒绝第三方共享的说明。然而,采用了深度学习、神经网络等算法的ChatGPT模型产生的数据极为复杂,以现有的技术手段难以确保其中信息可以被完全删除与销毁。现有技术条件下ChatGPT等人工智能模型生成的数据变异复杂,实际操作中数据销毁难以到位。一定程度的信息残留风险或许是人工智能时代无法回避的问题,需要采取其他措施予以管理与规制。因此,OpenaAI在数据安全和使用方面也有一定的责任和义务。
事实上,企业因使用ChatGPT事件导致的泄密事件已经发生了很多。网络安全公司Cyberhaven研究发现,3.1%使用人工智能模型的企业曾向ChatGPT提交公司的关键数据。Cyberhaven估计,一家拥有100万员工的公司每周可能与OpenAI共享数百次机密数据。除了使用ChatGPT的公司出现了数据泄露问题外,OpenAI本身也被这个问题所困扰。据报道,许多ChatGPT用户在使用ChatGPT时看到其他人的聊天查询列出现在了自己的历史记录中,这表明OpenAI在数据隐私和安全方面存在一定的漏洞。2023年3月,OpenAI在官网发布了一个道歉公告,公告中对该数据泄露事件做出了解释,由于开源库中的一个错误导致1.2%的ChatGPT Plus用户的隐私信息泄露。该错误是在Redis客户端开源库中发现,发现该错误后公司联系了Redis维护者并提供了一个补丁来解决这个问题。本案例揭示出即使是拥有强大技术实力的人工智能公司,也可能会在数据安全和隐私方面存在漏洞。可见,引入人工智能后,企业数据安全面临新的挑战,人工智能企业在技术创新的路上也同样面临安全管理等方面的考验。
(三)数据泄露事件中的法律问题与对策
综上,数据泄露事件凸显了生成式人工智能在保障企业数据安全与用户权益保护等方面面临的挑战。同时,也对监管者、控制者和使用者提出了更高层次的要求和责任。其一,要解决数据安全和隐私保护的法律责任。作为数据的收集者与管理者,人工智能企业应当履行对用户信息安全和隐私保护的义务。如果企业不加以重视、明确其数据保护责任、采取技术与管理措施,将会面临用户隐私权、数据保护、知识产权、合同责任等法律问题。例如,OpenAI的ChatGPT模型因一个技术漏洞而泄露用户数据,这就违反了涉及数据保护及个人信息保护的相关法律。其二,确保数据来源和用途的合法性和合规性。人工智能模型收集、处理数据的同时也在产生数据。企业和监管机构需要确保这些数据来源和用途的合法性和合规性。数据泄露问题涉及跨国用户与企业机构,数据信息的跨境流动极为庞大,但不同国家在个人信息保护、数据安全等方面的法律差异较大,这意味着全球范围内的法律监管与协作显得尤为重要。其三,需要有技术保障和制度结构来提供数据的透明度和可解释性。数据透明度和可解释性的缺乏可能会导致数据被滥用或故意生成虚假内容的结果,从而对社会、企业及用户造成严重损害。数据安全问题一直是人工智能发展中亟须解决的一个关键难题,需要各方在技术、政策、法律等层面加强合作和协作,建立完善的法律法规和技术措施,保护用户的隐私权和数据安全。在更广泛的学术背景下,理解和解决这些围绕数据泄露和人工智能技术的法律问题是至关重要的。
三、人工智能模型中数据泄露的防范和应对策略
(一)人工智能模型数据泄露热点分析
为对人工智能模型数据泄露的问题进一步深入探讨。本文以中国期刊全文数据库(CNKI)和Web of Science(WOS)数据库为数据源,检索主题词为“人工智能”“数据泄露”,检索时间范围2018年1月至2023年5月,在检索过程中对检索到的相关文献进行人工筛选,剔除了学位论文、会议、报纸等与主题不符的文献,筛选整理后共获得可作为数据源的182篇有效文献。在此基础之上,运用CiteSpace文献计量工具对人工智能模型数据泄露的研究现状和研究热点进行分析,为后续针对该领域的研究提供借鉴。
1.Web of Science(WOS)数据库关键词图谱分析
近五年,该领域学者主要在“人工智能(artificial intelligence)”“机器学习(machine learning)”“物联网(internet of tings)”“深度学习(deep learing)”等方面进行研究。Murdoch和Blak在文章中提出了“我们目前正处于一个熟悉的情况,即监管和监督有可能落后于它们所管理的技术。”的观点。正如该观点所言,监管部门对于人工智能新技术的理解与跟进总是滞后于技术实际发展的步伐。这是人工智能技术复杂性与迭代更新带来的必然问题。一方面,人工智能技术涉及的知识领域较广且更新速度快,如ChatGPT模型已应用于金融、自媒体等多个领域,而监管部门难以做到全面跟进,容易产生认知鸿沟。另一方面,现行的法律法规难以完全涵盖新技术带来的各类问题,如基于深度学习的人工智能难以明确判断其在核心算法与海量数据库的作用下产生的判断是否符合人类社会伦理与价值规范。人工智能技术的快速演进导致许多企业与组织在应用人工智能模型时,未能充分认识到其中的数据安全问题,这无形中大大增加了数据泄露与滥用的可能性。而现有的技术对于人工智能模型尤其是像ChatGPT一样的生成式人工智能做不到全面且有效的监管,这使得人工智能模型存在的安全漏洞和数据泄露的渠道变得难以预知。因此,政府、企业和用户需提高警惕,通过投入与学习不断缩小与技术发展的差距。
2.知网数据库关键词图谱分析
相较于国外,国内近五年对于该领域主要集中在“人工智能”“数据泄露”“数据安全”及“网络安全”等方面。《人工智能模型数据泄露的攻击与防御研究综述》这篇文章,主要研究了基于模型输出的数据泄露问题和基于模型更新的数据泄露问题,并总结了人工智能模型数据泄露的原因主要有两方面:第一个是,人工智能技术及应用发展过快,相关企业与组织在部署新技术时未能充分考虑数据安全因素。第二个是,现有技术手段无法对人工智能运作过程进行全面而有效的监控,导致系统漏洞与安全隐患难以发现。与国外相比,国内学者更加聚焦于人工智能技术发展过程中所涉及的数据安全与隐私问题,这体现了我国在人工智能法治实践方面目前还存在一定的不足。特别是在人工智能模型数据泄露等方面,国内企业与相关机构应加强安全意识,采取必要措施以预防数据泄露风险,这有助于规避人工智能技术发展过快而带来的数据安全隐患。
(二)三方主体的防范策略
通过整理分析发现,国内外对于人工智能模型中数据泄露问题的研究并不深入,但在实践中因人工智能模型而引发的数据泄露事件却常有发生。这表明,监管者(政府)、数据控制者(企业)与使用者(用户)在人工智能发展进程中,更注重技术创新本身,而忽视了其中潜在的数据泄露风险与安全隐患,从而限制了人工智能的健康发展。在人工智能领域,三方主体在应对数据泄露事件中都扮演着不同的角色和承担不同的责任。
1.在数据安全和隐私保护的法律责任方面
首先,监管者需要采取相关的监管措施,为人工智能设定明确的合法边界与规范。一是要制定和完善相关法律法规。虽然现有法律法规中存在对于人工智能模型数据泄露问题的规定,但这些规定还不够完善和具体,远远不足以应对人工智能新技术带来的数据安全挑战。数据泄露事件印证了现有法律无法有效应对日益复杂和多变的数据泄露攻击,监管者需要尽快推出更为详细的法规,明确权责边界与安全规范。二是要构建算法备案审查制度,设立风险预警线。算法备案审查制度是指算法系统的开发者,在产品投入应用前,按规定将算法材料报备案机构备案,接受合理性审查。这属事前监督,有助于规范算法应用,减轻相关风险。在此基础上,依据现有的监管规则和监管经验,为人工智能企业设置风险预警线。一旦人工智能模型输入或输出结果存在触及风险预警线的可能时,监管机构可以提前介入判断人工智能模型算法的合规性与风险,并采取相应补救措施,并依法追究企业的违规责任。
其次,数据控制者应制定专门的人工智能技术数据安全管理制度。监管者作为信息源头与第一责任方,其首要任务是设立专门的人工智能数据管理部门,明确数据安全责任和义务,采用有效的人工智能模型防御技术,如模型结构防御、信息混淆防御、查询控制防御等,提高模型对数据泄露攻击的抵抗能力。要求部门的专业人员定期对人工智能模型进行风险评估,在人工智能模型输入与输出的各个环节制定严密的数据管理规范与安全控制措施,明确数据的来源、流向、存储、使用和销毁的规范和流程,防止数据被滥用或泄露。此外,数据控制者还需建立全面完善的数据收集系统。数据收集是企业进行数据处理活动的初始阶段,它决定了后续数据分析和应用的质量和数量。数据控制者可以依据数据的来源、内容和用途对数据进行分类,并以结构化和标准化的方式存储数据。同时,在数据分级分类过程中,针对海量的语料数据库,数据控制者可运用机器学习、模式聚类等技术,打造数据分级分类引擎,实现对数据进行基于内容的实时、自动、精准分类分级。以此提高数据处理的效率和准确性,减少数据泄露和滥用的风险。
最后,数据使用者也应增强信息安全意识,避免随意泄露敏感数据。数据使用者虽然可以利用人工智能模型高效地完成工作,但仍应对所提交信息保密要求负责。用户个人作为数据使用者的一大主体,其在使用人工智能产品前应仔细阅读隐私政策和用户协议,了解企业将如何收集、使用和共享自己的数据。当企业过度使用用户自身的个人数据时,用户有权了解企业是如何使用其数据的,也可以根据如个人信息保护法、GDPR、CCPA等相关法规要求企业为其数据使用的行为提供解释。其中包括了用户访问、修正甚至删除企业持有的其个人数据的权利。同时,用户还应定期检查各平台存储的个人账户和信息,清理不再需要的账号和信息,以减少企业持有的用户个人数据覆盖面,降低数据泄露可能产生的数据关联和泄露风险。
2.在数据来源和用途的合法性和合规性方面
首先,监管者在人工智能模型数据泄露的问题中扮演着重要的角色,其不仅仅是人工智能模型的监管者,更是人工智能模型的使用者。作为监管者,其应制定数据安全与隐私法规,严格规范企业的数据收集与使用行为。但作为用户,其也需对自身应用的数据来源与合规性负责。如在Clearview AI数据泄露的案例中,政府的执法机构在运用人工智能新技术办公时,未要求企业提供数据来源合法性证明与使用授权,这间接导致政府参与利用了非法获取的数据,成为企业违法行为的同谋。因此,政府应加强自身的数据治理与安全防护。要求第三方服务机构提供数据来源与用途的明确说明,保证获得数据方式的合法合规,严格规范企业数据采集行为;加强对政府部门人工智能系统的数据来源审查避免成为企业违法行为的帮凶。这不仅关乎政府的监管责任与信息安全,也关系到社会公众对政府与企业的信任度。
其次,数据控制者一是要增强自身的合规意识。在重要数据法律安全保障方面,数据控制者对法规的遵守程度和义务承担的自觉性是非常重要的衡量标准。明确自身在重要数据全生命周期的义务与责任,尊重用户的隐私和版权归属、采用数据加密和访问控制等方式最大限度减小数据泄露带来的风险。其二,数据控制者需加强对员工的数据安全教育和培训。只有内部员工更清楚哪些数据对组织而言是具有强大竞争力的,而且他们更容易接触到这类数据。由此可见,防范员工泄密是降低泄露损失、减少数据泄露事件发生最为有效的措施。针对人工智能模型的特点,对员工进行专业的数据安全教育与培训,如告知员工在使用生成式人工智能模型时,尽量避免输入包含敏感信息的数据,如商业秘密、源代码、客户数据等,或者对这些数据进行加密或脱敏处理,降低数据泄露的风险。此外,还应严格审查和监管第三方合作机构。企业在选择与其他机构进行数据交换或联合开发新产品时,必须对合作伙伴的安全措施与管理机制进行审慎评估。寻找可靠的合作对象,同时在合作协议中明确各方的数据责任与安全准则,以保护企业数据安全与隐私的责任。
最后,数据使用者应将重要数据及隐私信息进行匿名化与去标识化。匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。个人信息匿名化处理后,不再属于个人信息。去标识化,是指通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别的个人信息,或者关联个人信息主体的过程。个人信息去标识化处理后,仍然是个人信息。随着人工智能模型的应用普及,数据使用者在使用人工智能产品的任何活动包括人脸、指纹等具有强个人属性的生物特征信息都可能会被人工智能模型自动采集,一旦这些数据被泄露或者滥用,将会对公民权益造成严重危害。用户可以通过选择使用假名、昵称等非真实身份标识或要求个人信息处理者删除或匿名化其所基于的个人信息等方式匿名化或去标识化自己的信息,降低数据泄露可能造成的隐私侵犯风险。除了上述提到的措施,用户在使用人工智能模型时也应确保数据来源和使用的合法性和合规性,以避免出现诸如知识产权侵权、侵犯他人隐私等法律问题。
3.在数据透明度和可解释性方面
首先,监管者应加强对人工智能技术的监管。技术层面上的不完善或者任意性都会使得算法系统存在一定的风险,面对算法应用带来的风险,各国尚未有专门的机构对算法进行监管,因此必须设立专门的监管机构。除了用法律对该问题进行规制外,监管者应该加强对人工智能模型的监管,确保其数据安全管理措施得到有效落实。如设立专门针对人工智能的监管机构、加强生成式人工智能服务的安全评估和审查等。监管机构应负责对人工智能算法模型的数据来源、训练过程与应用场景进行审核,要求开发者在模型研发与应用前进行风险评估,并采取有效措施加以防范与控制,避免或减轻数据泄露的风险。同时,监管者还应细化重要数据立法保护。数据治理的核心是“重要数据”的保护,采取分类分级保护便于数据持有者合理识别重要数据,使重要数据能自由流通,转化出更高的经济价值。如,政府作为监管者在使用人工智能模型时,往往涉及公共服务、社会治理、国家安全等重要领域,如果这些领域的数据被泄露,将会给社会和国家带来严重的危害。因此,政府将人工智能技术引入办公体系的同时,应加强对高新技术产品的数据来源及使用方式进行评估,要求人工智能企业在收集和使用用户数据前征得明确同意,保障用户的信息知情权与选择权。除此之外,监管者也应加强内部管理与员工培训,在决定使用第三方企业提供的数据与工具前,全面评估第三方提供的人工智能产品的数据来源与处理流程的合规性与透明度。
其次,数据控制者应提高人工智能算法的透明度和可解释性。算法透明度和可解释性不是一个孤立的义务,而是构成人工智能问责制度中的重要组成部分。它要求数据控制者采用各种措施来保证数据处理的合法性、处理结果的公平性以及用户信息的安全性。以深度学习、神经元网络等算法为代表的人工智能模型,因其“算法黑箱”的特性使得用户无法判断其输出结果的准确性与公正性,从而导致多数用户隐私安全与数据安全难以得到保障。算法机制所构建的权力格局,在其运算逻辑和结果输出时往往忽略个人的主观能动性,在算法权力之下人被作为一个可被检测、可被预测、可被操控的客体来对待。因此,数据控制者需要在研发人工智能模型过程中采用公平、无偏和透明的算法,明确模型训练数据的来源渠道与使用授权包括数据来源、采集方式、数据处理过程等等,避免使用非法获取的数据资源。并且可以利用人工智能模型可解释性方法(XAI)的相关技术。数据控制者可采用全局解释、post-hoc可解释性等技术,以便用户及其他相关利益者了解决政策过程和可能带来的影响,从而实现算法的透明性和安全性。另外,数据控制者还需同政府、社会和其他利益相关者建立良好的关系,形成内部和外部同时监督的形式,遵守相关的法律法规,承担相应的社会责任和法律责任,实现人工智能技术和企业的可持续发展。
最后,数据使用者应享有对自身数据进行控制与保护的权利。个人信息在数据共享中仍应被视作个人信息,因此在进行数据共享时,就像在进行个人信息的收集和利用时一样,需要先获得信息权利人的授权。由于,人工智能模型存在的技术偏见和算法黑箱导致个人隐私数据泄露严重。因此,数据使用者可以要求收集和处理自身个人数据的企业和机构提供数据透明度和可解释性的保障。透明度要求模型开发者考虑用户的知情权,尽量公开模型结构与判断依据信息。可解释性要求为每一个模型判断或建议提供能够被人理解的解释。这有助于用户理解模型的工作机理与判断根据,加强对其输出结果的信任。人工智能模型的法律治理正在由宏观与抽象转向算法本身。控制数据来制约算法是一种重要的手段,其中被遗忘权的实现尤为重要。赋予用户删除与修改信息的权利,并通过对底层数据的控制将其与关联的主体脱钩可以达到数据被算法遗忘的效果,而在技术上并不只存在删除一种手段,还包括数据脱敏,减少数据黏性等。同时,用户也需要在运用人工智能技术与服务时保持审慎态度。人工智能模型预学习阶段对语料数据库信息无过滤机制,可能使其在运行阶段生成不良、虚假或违法信息。用户应审慎判断模型输出结果与推荐,与事实及常理进行对比核实,并在此基础上作出最终决策,缓解算法的不确定性与风险。
(三)建立完善的人工智能法律法规体系
1.构建人工智能法律法规体系的挑战
随着人工智能技术不断地更新迭代,其带来的法律挑战也日益凸显。虽然现有法律法规中存在对于人工智能模型数据泄露问题的规定,但这些规定还不够完善和具体,无法有效应对人工智能领域中日益复杂和多样的数据泄露问题。2023年4月,欧盟就人工智能法(The AI Act)提案达成临时政治协议,为生成式人工智能设立版权规则。该规则通过要求生成式人工智能公司披露用于开发训练其人工智能系统的任何受版权法保护的资料和数据及数据来源,以达到保护知识产权、促进市场公平竞争的目的。国内也发布了《生成式人工智能服务管理办法(征求意见稿)》用以规范生成式人工智能的研发、利用,以确保生成式人工智能产业健康有序发展。与传统数据安全领域相比,人工智能领域在数据安全与隐私保护问题上还面临着诸多的挑战。
其中一个主要的挑战是深度学习算法本身存在的可解释性不足的问题。实践中一些企业已经尝试将人工智能的判断过程可视化,利用流程图或语言描述将复杂的运算过程转化为更易于人类理解的方式,以提高人工智能模型的透明度。但由于深度学习、神经网络不可解释的算法黑箱特性,当结果出现误差时,开发者也无法解释为什么会产生误差、怎么去解决这个误差。可见,人工智能模型的可解释性是当前人工智能发展中的重要课题与技术瓶颈。可解释性是保障人工智能安全性的重要手段。人工智能模型可解释性的缺失使得模型使用的数据如何被采集、处理与运用难以被外部监管机构或用户有效审查,可能导致用户隐私数据的滥用与泄露。现有的可解释性方法主要针对图像和文本分类任务,通过对隐层运用一些可视化方法来将其转化成人可以理解的有实际含义的图像。但在一些特定领域仍存在一定不足,如在刑事司法领域,当使用深度学习模型预测司法判决时,难以确保模型以公平、安全和无歧视的形式为人类呈现判决结果,引起学术界和社会舆论的质疑。如果可以解释人工智能算法或模型作出决策的依据与判断过程,人们就可以通过分析这些依据的合理性和内在逻辑来评估系统的安全性与可靠性。这对于人工智能模型中数据泄露问题的解决尤为重要。只有当算法的判断过程与依据成为透明,各方才可能在发挥新技术优势的同时,也加强对其使用的监督与检查,避免产生不良影响。
另外,如何界定人工智能模型数据泄露的法律性质和责任主体也需要进一步展开研究。人工智能的发展速度远快于相关法规的制定与完善。这使人工智能的开发者和运营企业在研发与应用过程中难以准确判断其运用方式与结果的法律性质,也加大了相关纠纷与责任认定的难度。用户和企业在使用人工智能模型的交互过程中可能会涉及个人信息、知识产权、商业秘密等敏感信息,一旦这些敏感信息出现被人窃取或滥用等问题,对于人工智能算法所使用的神经网络系统的侵权责任,由于其黑箱特性,客观上难以对算法开发者与被侵权者之间的因果关系进行有效的解释。对于人工智能算法所使用的神经网络系统的侵权责任,在客观上难以对算法开发者与被侵权者之间的因果关系进行有效的解释。因此,界定人工智能模型数据泄露的法律性质和责任主体是一个复杂问题,需要考虑多因素,如数据泄露对个人隐私和权益的影响、数据泄露涉及的信息类型、数据泄露的原因等。未来研究需进一步探讨相关法规完善和责任主体明确,制定针对性的法律框架与体系加以规范,以保障人工智能技术安全与可持续发展。
2.三角度构建人工智能法律法规体系
综上,人工智能模型中的数据泄露是一个复杂和多维的问题,我们需要建立完善的人工智能法律法规体系。各国都在积极探索对于人工智能模型的监管规则。例如,我国发布了《生成式人工智能服务管理办法(征求意见稿)》;欧盟也就人工智能法(The AI Act)达成相关协议。但目前多数国家还未对人工智能模型出台系统性立法,且已有的相关条款多散落于现有的网络立法体系之中。这种分散的人工智能监管方式可能会导致人工智能相关事项的法律处理不一致等问题。我国在人工智能领域同样缺乏一个全面的法律框架来规范人工智能的开发、部署和使用。现有的法律以及有关人工智能的规范性文件是建立完善我国人工智能法律法规体系的起点。通过建立一个人工智能的法律框架,探寻人工智能领域基础性的立法来解决人工智能技术各个方面的问题,包括数据安全与隐私保护、数据合法性与合规性以及数据透明度与可解释性、人工智能相关伤害的责任等方面的问题。
首先,从数据安全与隐私保护角度。法律所调整的是人与人之间的关系,因此法律不必去直接规制技术,而应当规制使用技术的人。人工智能法律框架不应过于着眼于技术本身,而应更加关注人工智能技术的研发者、运营者以及使用者等主体的行为和责任。可以通过制定人工智能数据管理办法,明确人工智能数据控制者和使用者在人工智能全生命周期的数据责任与义务,以规范其行为,保障数据安全与用户隐私。其次,在数据合法性与合规性方面。人工智能法律框架应以隐私、保密和合规为目标,明确人工智能数据控制者及使用者在数据采集、存储、分析各个环节中的权利与义务。国内已有数据安全法对数据进行了详细的规定,但是在人工智能领域,其规范力度还不够,且该法主要针对的是基础数据安全,其规定难免存在局限。可以在数据分级分类思路的指引下,根据不同类型和级别的人工智能系统,对其使用的数据进行分类管理,采取相应的监管措施。明确数据的合法来源,规范数据的合法性审查。最后,从数据透明度与可解释性来看。人工智能法律框架应以创新性的“算法可理解+数据可信+参数可解释”为骨干构建新的治理框架。“算法可理解”要求人工智能控制者向监管部门解释算法逻辑,但并不要求其完全公开透明,以保护企业利益,规避算法欺诈或误导。“数据可信”要求数据来源清晰合法,遵守基本数据使用规范,但不过分强化数据安全与合规要求,给企业一定自由空间。“参数可解释”更多要求算法使用者解释参数选择理由,因为参数设定往往反映主观判断,可能引发歧视、偏见等问题。将“参数可解释”纳入治理框架,是更具有针对性,更远离技术黑盒、贴近具体应用和用户感受,也面临更小阻力的监管手段。此外,人工智能在未来会面临更加复杂的伦理安全以及法律人格等新的法律问题。因此,我国有必要构建一个具有前瞻性、符合社会主义核心价值观和国际通行规则的人工智能法律框架,将涉及开发过程中的安全性、应用中的责任划分、数据使用中的隐私保护等关键内容纳入规范范围。协调好各个法规如个人信息保护法、网络安全法、数据安全法之间的关系,将有关数据、算法、使用主体和人工智能相关问题的探索,统一纳入未来人工智能基础性立法,以适应新技术的发展和应用。
结语
人工智能技术的快速发展使其应用场景和数据需求日越广泛,这也推动了人工智能模型中数据泄露的法律创新和发展。技术创新必须在法治的框架下进行,相关的法律制度也需要跟上新技术发展的步伐。虽然,阿西莫夫的三大定律为保障人工智能模型作为工具为人类服务提供了理论基础,但面对ChatGPT等人工智能模型中出现的数据泄露问题,现实层面需要更加具体和全面的法律对其予以规范。现有的法律框架可能无法充分解决人工智能和数据泄露所带来的挑战。当务之急是构建人工智能的法律框架,将解决透明度、各方主体的问责制等问题统一纳入未来人工智能基础性立法,以解决围绕人工智能模型中的数据泄露问题。此外,除了人工智能自身问题,对于人工智能数据控制者和使用者等背后主体的监督才是核心问题,从数据安全和隐私保护、数据来源和用途的合法性和合规性、数据透明度和可解释性三个角度,算法、数据、应用等多个方面,确保其遵守相关数据使用规定,这才能有效抑制数据泄露问题的发生。监管者需要制定更加具体全面的数据使用规范与要求,增加对人工智能应用中的数据来源与用途的监管;数据控制者应加强对数据使用的监控与管理,落实数据安全措施与个人信息保护制度;使用者也需要提高数据安全意识,理解相关数据使用限制与要求。当然,除了法律的保障,还需要在技术和管理方面进行不断的创新和提高。通过法律和技术两个层面寻求突破与进步,以确保人工智能的安全性和可靠性。
评论留言