OpenAI指出，AI浏览器或许会一直面临提示注入攻击的潜在风险

2026-02-12作者：admin

尽管OpenAI正着力强化其Atlas AI浏览器的网络攻击防御体系，但该公司也坦言，提示注入这种能操控AI代理执行网页或邮件中隐藏恶意指令的攻击手段，短期内仍将持续构成风险——这无疑让人们对AI代理在开放网络环境下的安全运行能力产生了疑虑。

OpenAI在周一发布的一篇博客文章中表示：“即时注入这类问题，和网络上的骗局、社会工程手段类似，恐怕难以被彻底‘根除’，因此公司正着力强化Atlas的防护机制，以应对层出不穷的攻击。同时，公司也承认，ChatGPT Atlas所采用的‘代理模式’使得安全威胁的范围有所扩大。

OpenAI 在10月推出了ChatGPT Atlas浏览器后，安全研究人员们随即发布了相关演示，呈现出仅需在Google文档里输入几个词，就能对底层浏览器的行为产生改变的情况。而在同一天，Brave也发布了一篇博客文章，阐述间接提示注入是人工智能驱动的浏览器（其中包括Perplexity的Comet）所面临的系统性难题。

OpenAI并非唯一意识到基于提示的注入问题不会消失的机构。英国国家网络安全中心本月初就曾发出警示，指出针对生成式人工智能应用的提示注入攻击“或许永远无法彻底缓解”，这会让网站面临数据泄露的风险。该英国政府机构建议网络专业人士应着力降低提示注入的风险与影响，而非认为这类攻击能够“被阻止”。

OpenAI方面表示：“我们将快速注入视为长期的人工智能安全挑战，需要不断加强防御。”

公司对这笔西西弗斯式任务的回答是什么？公司表示，这种主动快速响应周期显示出早期潜力，有助于在内部发现新颖攻击策略，防止它们被“野外”利用。

这与Anthropic和谷歌等竞争对手所说的观点并无太大不同：为了应对基于提示性攻击的持续风险，防御必须多层次并持续进行压力测试。例如，谷歌最近的工作聚焦于代理系统的架构和策略级控制。

但OpenAI采取了不同的策略，是对其“基于LLM的自动攻击者”。这个攻击者基本上是OpenAI训练的机器人，利用强化学习，扮演黑客的角色，寻找方法偷偷向AI代理传递恶意指令。

在正式投入使用前，机器人能够通过模拟器开展测试攻击。模拟器会呈现目标AI的思维逻辑，以及它在遭遇攻击时可能做出的应对举措。之后，机器人可以分析这些反应，调整攻击策略，并进行多次尝试。由于外界无法洞悉目标AI的内部推理过程，所以从理论上讲，OpenAI的机器人应该能比现实中的攻击者更迅速地发现漏洞。

这是AI安全测试中的常见策略：构建一个代理来找出边缘案例，并在仿真中快速进行测试。

OpenAI指出：“我们通过强化学习训练出的攻击者，能够诱导代理完成复杂且具有长期影响的有害工作流程，这类流程往往需要历经数十乃至数百个步骤才能逐步展开。”“我们同时还发现了一些在人类红队行动以及外部报告里都未曾出现过的全新攻击策略。”

在演示过程中（部分相关图片可查看上方），OpenAI呈现了其自动攻击程序是怎样把恶意邮件悄悄送入用户收件箱的。之后，当AI代理对收件箱进行扫描时，它并没有按照常规去草拟不在办公室的回复，而是依据邮件里的隐藏指令发送了辞职信。不过，据该公司表示，在完成安全更新后，“代理模式”能够成功识别出提示注入的尝试，并向用户发出了标记提醒。

公司表示，虽然快速注入难以万无一失地防范，但他们依靠大规模测试和更快的补丁周期，在实际攻击出现前加固系统。

OpenAI发言人拒绝透露Atlas安全性更新是否导致成功注入数量的明显减少，但表示公司自发布前就已与第三方合作，加强Atlas防止快速注入的防护。

网络安全公司Wiz的首席安全研究员Rami McCarthy表示，强化学习是持续适应攻击者行为的一种方式，但这只是整体情况的一部分。

“判断人工智能系统风险的一个有用方法是自主性乘以访问性，”麦卡锡讲到。

“代理型浏览器往往处于这一领域的一个挑战阶段：适度自主性与极高访问性相结合，”麦卡锡说。许多当前的建议反映了这种权衡。限制登录访问主要减少风险，而要求审核确认请求则限制了自主权。”

这两项是OpenAI为帮助用户降低自身风险提出的建议内容之一，据一位发言人介绍，Atlas还经过相关培训，可在发送消息或进行支付前向用户确认。OpenAI同时建议用户向客服提供具体的指示，而非直接让客服访问收件箱并告知对方“采取任何必要行动”。

OpenAI表示：“宽松的自由度使隐藏或恶意内容更容易影响代理人，即使有安全措施。”

虽然OpenAI表示保护Atlas用户免受提示注入是首要任务，但McCarthy对风险较高的浏览器的投资回报率提出了一些怀疑。

McCarthy表示：“就多数日常使用场景而言，代理式浏览器目前还没能展现出足够的价值，来抵消其现有的风险属性。”由于这类浏览器会接触到电子邮件、支付信息等敏感数据，风险程度相当高——而恰恰是这种访问权限，构成了它们功能强大的基础。尽管这种价值与风险的平衡状态会持续变动，但在当下，二者之间的权衡依然是切实存在的。

Tags：责任编辑：admin