
信用:CC0 公共领域
ChatGPT和Bard等大型语言模型(LLM)今年风靡全球,公司投资数百万美元开发这些AI工具,一些领先的AI聊天机器人价值数十亿美元。
这些LLM越来越多地用于人工智能聊天机器人,它们抓取整个信息互联网来学习并告知它们为用户指定的请求(称为“提示”)提供的答案。
然而,来自人工智能安全初创公司Mindgard和英国兰开斯特大学的计算机科学家已经证明,这些LLM中的大块可以在不到一周的时间内以低至50美元的价格复制,并且获得的信息可用于发起有针对性的攻击。
研究人员警告说,利用这些漏洞的攻击者可能会泄露私人机密信息,绕过护栏,提供不正确的答案或进行进一步的针对性攻击。
在CAMLIS 2023(信息安全应用机器学习会议)上发表的一篇新论文中详细介绍了研究人员,表明可以廉价地复制现有LLM的重要方面,并且他们展示了在不同模型之间转移漏洞的证据。
这种攻击被称为“模型骗子”,通过以这种方式与LLM交谈来工作 - 向它询问一组有针对性的提示 - 以便LLM获得有见地的信息,从而揭示模型的工作原理。
研究小组将研究重点放在ChatGPT-3.5-Turbo上,然后利用这些知识创建了自己的复制模型,该模型小了100倍,但复制了LLM的关键方面。
然后,研究人员能够使用此模型副本作为测试场,以研究如何在不检测的情况下利用ChatGPT中的漏洞。然后,他们能够使用从模型中收集的知识来攻击 ChatGPT 中的漏洞,成功率提高了 11%。
兰开斯特大学的Peter Garraghan博士,Mindgard的首席执行官,该研究的首席研究员说:“我们的发现在科学上令人着迷,但非常令人担忧。这是首批从经验上证明安全漏洞可以在闭源和开源机器学习模型之间成功转移的工作之一,考虑到行业对托管在HuggingFace等地方的公开可用的机器学习模型的依赖程度,这是非常令人担忧的。
研究人员表示,他们的工作强调,尽管这些强大的数字人工智能技术有明确的用途,但存在隐藏的弱点,甚至可能存在跨模型的常见漏洞。
各行各业的企业目前正在或准备投资数十亿美元来创建自己的LLM,以承担智能助手等各种任务。金融服务和大型企业正在采用这些技术,但研究人员表示,这些漏洞应该是所有计划构建或使用第三方LLM的企业的主要关注点。
Garraghan博士说:“虽然LLM技术具有潜在的变革性,但企业和科学家都必须非常仔细地考虑理解和衡量与采用和部署LLM相关的网络风险。
原文标题:AI researchers expose critical vulnerabilities within major large language models
原文链接:https://techxplore.com/news/2023-10-ai-expose-critical-vulnerabilities-major.html
作者:Lancaster University
编译:LCR
评论留言