我爱免费 发表于 2024-5-7 00:58

【小白学AI系列第10课】巴菲特:AI就是核武器?如何构建安全AI应用

作者:AI模数师
关注 ▲AI模数师▲ 探索AI生活,驱动数据智能




这是AI模数师 怎么用AI系列 的第12篇原创

另外如果您也在AI学习的路上,欢迎订阅小白学AI系列,零基础搞定大模型!

小白学AI系列文章

另外~~跟大家宣布个重要的事情!

我已经把自己变成了一个万能的超级智能体,可以在后台问我各种问题~~还可以陪你玩成语接龙 和 末日生存游戏 !欢迎后台私信体验啊~~

一年一度的巴菲特股东发布会,巴菲特老爷子谈到了对AI的担忧和紧张,特别是最近的进展,比如AI会引发欺诈问题,通过AI模拟人声进行欺诈、或者生成的图片难以辨别真假。

确实,随着人工智能(AI)越来越多地影响我们的生活,保护客户数据和如何安全的保护AI系统本身变得尤为重要。AI在决策支持方面的应用越来越广泛,但是一旦决策出错,可能会带来严重的后果。

此外,AI大模型往往无法区分恶意输入和异常数据。大量训练数据来自于未经筛选、未经审查的公开数据集,任何第三方都可以贡献内容。攻击者可以轻松贡献数据而不必直接篡改数据集。随着时间的推移,如果数据格式正确,即便是低可信度的恶意数据也可能变成高可信度的数据。

因此,确保模型决策依赖的数据存储的完整性和安全至关重要。

理解AI的威胁和风险

目前,数据污染是AI及相关系统面临的最大安全威胁。数据污染是指有意修改训练AI所用的数据,从而导致AI犯错。

这种情况之所以发生,一方面是因为缺乏标准化的检测和缓解方法,另一方面是因为我们依赖于不可靠或未经筛选的公共数据集进行训练。

跟踪数据的来源和血统,以维护数据完整性并防止训练过程出错,显得尤为重要。否则,就会出现“垃圾进,垃圾出”的情况,最终影响模型的性能。

数据污染对大模型的影响包括:

标签翻转:在二分类任务中,攻击者故意更改少数训练数据的标签,如将良性样本标记为恶意,导致模型学习到错误的关联。.
比如:因标签被篡改,导致垃圾邮件过滤器将合法邮件错误分类为垃圾邮件。

特征污染:攻击者微调训练数据中的特征,引入偏见或误导模型。.
比如:在产品描述中添加无关关键词,以操纵推荐系统。

数据注入:向训练集注入恶意数据,影响模型行为。.
比如:添加假用户评论,歪曲情感分析结果。

后门攻击:攻击者在训练数据中插入隐藏模式(后门),使模型在触发时表现出恶意行为。.
比如:通过训练含有后门的图像,使面部识别系统错误识别特定人物。

MITRE公司创建了一个对抗性威胁系统(ATLAS),记录对手在真实攻击AI系统中使用的策略和技术的知识库。

与MITRE ATT&CK框架一样——该框架广泛用于传统网络安全,规划高级威胁模拟场景——ATLAS提供了一套易于搜索的TTPs,帮助我们更好地理解和准备防御新兴攻击。

Open Web Application Security Project ( OWASP ) 还创建了一个“前十大漏洞列表”,列出了利用大型语言模型(LLMs)的应用程序中最关键的漏洞。列表强调了包括数据污染在内的威胁风险,以及其他风险,例如:

提示注入:通过精心设计的输入操纵大型语言模型(LLM),使其偏离预期行为的技术。

供应链漏洞:构成LLM应用程序的组件和软件可能被威胁,导致意外结果、引入偏见,甚至是基础设施漏洞。

过度依赖:LLMs容易出错,可能提供不准确或不安全的结果。在多个实例中,人们将结果视为准确无误,导致了意想不到的负面后果。


AI系统和大型语言模型的安全测试

人工智能(AI)正在改变各种领域和行业,为社会带来新的可能性和好处。然而,AI也带来了数据隐私、偏见、缺乏可解释性和潜在滥用等重大挑战和风险。因此,确保AI系统的安全性和责任感至关重要,这意味着它们需要遵守道德和法律标准,并获得用户和利益相关者的信任。

安全测试是通过识别和利用它们的漏洞来评估AI系统或大型语言模型的安全性的过程。这项测试可以由开发者、用户或第三方审计员根据测试的目的和范围进行。AI系统和大型语言模型的一些常见安全测试方法包括:

数据清洗:从AI系统或大型语言模型的训练数据或输入中删除或匿名化敏感或私有信息的过程。数据清洗有助于防止数据泄露和恶意操作,通过减少机密或个人数据的暴露。

对抗性测试:生成并应用对抗性示例到AI系统或大型语言模型的输入或输出的过程,以评估其对对抗性攻击的鲁棒性和恢复力。对抗性测试有助于识别和缓解AI系统或大型语言模型可能被攻击者利用的漏洞和弱点。

模型验证:验证AI系统或大型语言模型的模型参数或架构的正确性和完整性的过程。模型验证有助于检测和防止模型盗用,确保模型受到保护和认证。

输出验证:验证AI系统或大型语言模型输出的质量和可靠性的过程。输出验证有助于检测和纠正恶意操作,确保输出是一致和准确的。


AI安全

我们的目标是保护AI系统免受恶意攻击、滥用或意外后果的影响。这包括采取措施确保AI系统的安全、可靠性和可信度,例如:

保护用于训练和运行AI模型的数据和算法

防止未经授权的访问、操纵或破坏AI系统

检测和缓解AI系统中的偏见、歧视或道德问题

确保AI决策和行动的问责性、透明度和可解释性

使AI系统的目标和价值与人类和社会的目标和价值一致

AI安全对于确保AI系统和数据的完整性、可用性和机密性至关重要。AI安全的挑战和机遇包括:

机遇:将AI纳入网络安全策略,因为它可以在识别威胁和提高响应时间方面发挥关键作用。AI可以帮助自动化和增强检测和缓解网络攻击的能力,如网络钓鱼、恶意软件或勒索软件。

挑战:对手也可以使用AI发起复杂的攻击,如生成假或误导性内容、冒充用户或利用AI系统中的漏洞。因此,AI开发者有独特的责任设计出对滥用具有韧性和抵抗力的系统。
数据保护

LLMs可能对它们使用的数据的隐私和安全构成风险。例如,LLMs可能会记住并泄露其训练数据中的敏感信息,如个人姓名、地址、密码或信用卡号码。它们还可能被恶意行为者操纵或攻击,这些人想要利用它们的漏洞或偏见。因此,了解这些风险并采取适当措施保护LLMs使用的数据很重要。您可以采取几个步骤来保护与LLMs一起使用的数据。这些步骤包括:

限制他们与LLMs共享的数据的数量和类型:只共享对预期目的必要和相关的数据,并避免共享任何敏感、机密或个人的数据。用户还应该匿名化或加密他们与LLMs共享的数据,例如通过删除或掩盖任何识别信息,或使用安全的通信渠道。

验证LLMs生成的数据:始终检查LLMs生成的输出的准确性和质量,以确保它们不包含任何不需要或不适当的信息。

报告和警告任何数据泄露或事件:警惕LLMs产生的任何可疑或异常的活动或行为,例如生成不相关、不准确、冒犯性或有害的文本。这可能是数据泄露或安全事件的迹象。

数据安全、治理和合规对于任何希望在多云环境中利用数据和AI的力量的组织至关重要。保护和治理您的所有数据是一项复杂和多方面的任务。您需要在多个云中的不同位置保护和治理不同类型的数据(结构化、非结构化和由AI生成的数据),并需要考虑现有和未来的数据安全、治理和AI法规。为了保护您的数据,您需要采取一些最佳实践和预防措施,例如:

使用提供数据保护和隐私功能的云服务或平台。

使用数据质量和验证工具检查您的数据是否有错误、不一致或异常。

使用数据治理和伦理框架确保您的数据以负责任和透明的方式使用。


模拟现实世界威胁 - AI红队(AI red teaming)

模拟现实世界威胁现在被认为是构建弹性AI系统的标准实践,通过采用类似的工具、策略、程序来识别系统的风险并测试防御者的响应。

AI红队的实践已经演变为具有更广泛的含义:它不仅涵盖了探测安全漏洞,还包括探测其他系统故障,如生成可能有害的内容。AI系统带来了新的风险,而红队是理解这些新风险的核心,如提示注入和产生不切实际的内容。- Microsoft AI红队构建更安全的AI未来



以下是塑造Microsoft AI红队计划的关键洞察。

**AI红队的广泛范围**:AI红队现在包括安全和负责任AI(RAI)结果。传统上,红队专注于安全方面,将模型视为向量(例如,盗用底层模型)。然而,AI系统引入了新的安全漏洞(例如,提示注入,污染),需要特别关注。除了安全之外,AI红队还探测公平问题(例如,刻板印象)和有害内容(例如,暴力美化)。及早识别这些问题允许优先考虑防御投资。

**恶意攻击和用户的犯错行为**:AI红队考虑了恶意攻击和用户失误导致的失败。例如,当红队新的Bing时,我们探索的不仅仅是恶意对手如何颠覆系统,还有普通用户可能遇到的问题或有害内容。与传统的安全红队不同,主要关注恶意行为者,AI红队考虑了更广泛的人物和潜在失败。

**AI系统的动态性**: AI应用不断进化。在大语言模型应用中,开发者适应不断变化的要求。持续的红队确保持续的警惕和适应不断变化的风险。

OpenAI作为AI系统的领先者,建立了一系列《安全评估》作为其红队网络计划的一部分,旨在测试AI系统的输出,希望为AI安全做出贡献。

评估可以从简单的问答测试到更复杂的模拟。以下是一些OpenAI开发的样本评估,用于从多个角度评估AI行为的具体示例:
说服(Persuasion)


MakeMeSay:一个AI系统能多好地欺骗另一个AI系统说出一个秘密词?

MakeMePay:一个AI系统能多好地说服另一个AI系统捐款?

Ballot Proposal:一个AI系统能多好地影响另一个AI系统对政治提案的支持?
隐写术(隐藏信息)


Steganography:一个AI系统能多好地传递秘密消息而不被另一个AI系统发现?

Text Compression:一个AI系统在压缩和解压消息方面的表现如何,以便隐藏秘密消息?

Schelling Point:一个AI系统在没有直接通信的情况下与另一个AI系统协调的能力如何?

AI红队并非包罗万象,应被视为补充其他控制措施,如基于角色的访问控制(RBAC)和全面的数据管理解决方案。它旨在补充一个安全策略,该策略侧重于采用安全和负责任的AI解决方案,这些解决方案考虑到隐私和安全,同时努力最小化偏见、有害内容和误导信息,这些都可能侵蚀用户信心。

觉得我的文章对你有帮助的话,请不要吝啬你的点赞、在看和转发~
页: [1]
查看完整版本: 【小白学AI系列第10课】巴菲特:AI就是核武器?如何构建安全AI应用