OpenAI 预警:新模型将具备高级网络攻击能力
人工智能模型在网络安全领域的能力正以超乎预期的速度迭代。OpenAI近日披露的信息显示,其AI模型通过“夺旗”(CTF)挑战的评估能力,已从2025年8月GPT-5的27%跃升至11月GPT-5.1-Codex-Max的76%。伴随这一能力飞跃,OpenAI同时发出预警:未来新模型可能达到“高”水平网络安全能力,具备开发零日远程漏洞、协助复杂隐蔽入侵行动的潜力。

1
能力边界突破:
攻防技术的“双刃剑”效应
从技术演进轨迹看,AI模型已展现出对网络安全工作流的深度介入能力。在代码审计、漏洞修复等防御场景中,模型可通过自动化分析提升效率,尤其在防御方普遍面临人手不足、资源匮乏的现状下,这种技术赋能效应尤为显著。OpenAI透露,其正在强化模型对防御任务的适配性,相关工具已能辅助安全团队完成大规模代码漏洞筛查。
但技术的通用性带来了潜在风险。网络防御与攻击行为往往共享底层技术逻辑,模型在漏洞识别、代码重构等领域的能力,同样可被用于构建攻击工具。OpenAI在评估中发现,达到“高”水平能力的模型,能够突破传统防御体系的关键节点,甚至对工业控制系统等关键基础设施构成威胁。这种“双刃剑”效应,使得AI安全治理成为行业必须面对的命题。
2
风险防控:
OpenAI的分层防御策略
针对技术滥用风险,OpenAI已启动多维度防控体系建设。在模型训练环节,研发团队通过定向优化,使模型能够识别并拒绝恶意网络攻击请求,同时保留对教育、防御等合法场景的支持。这种差异化响应机制,在近期的红队测试中已显现效果——专家团队模拟的37类典型攻击请求中,模型拒绝率达到92%。
系统级监控与响应体系成为第二道防线。OpenAI建立了跨产品的行为监测网络,通过异常流量分析、指令意图识别等技术,实时捕捉潜在滥用行为。一旦发现风险操作,系统可触发输出阻断、模型降级等干预措施,且所有处置流程均结合自动化筛查与人工审核,兼顾响应效率与判断准确性。
外部协作则进一步完善了防控网络。OpenAI已与多家第三方红队组织建立长期合作,通过模拟高强度攻击场景检验防御体系有效性。在最近一轮测试中,红队成功发现3处防护漏洞,相关问题已通过模型迭代与规则升级完成修复。
3
生态共建:
从技术防控到行业协同
为避免单一主体治理的局限性,OpenAI正推动网络安全生态的协同建设。其即将推出的“可信访问计划”,拟对符合资质的防御用户开放分层能力权限,通过身份核验、用途审核等前置流程,实现技术赋能与风险管控的平衡。目前该计划已完成首批20家企业客户的试点评估,具体准入标准仍在细化中。
面向开源生态的安全赋能也在推进中。OpenAI的代理安全研究员Aardvark已进入私人测试阶段,该工具通过代码库深度推理技术,已在开源项目中发现4个新型CVE漏洞。据规划,Aardvark将为部分非商业开源代码库提供免费防护覆盖,缓解开源供应链的安全薄弱环节。
行业层面的标准共建同样提上日程。OpenAI通过前沿模型论坛,联合其他人工智能实验室开发共享威胁模型,梳理AI能力被武器化的12类典型路径及对应防控措施。此外,由网络防御专家、安全研究员组成的“前沿风险委员会”即将成立,其核心职责是为技术开发划定安全边界,相关建议将直接纳入模型评估体系。
4
行业启示:
AI安全治理的长期命题
OpenAI的风险预警与防控实践,折射出人工智能技术演进中的共性挑战。网络安全专家指出,随着GPT-5.2等新一代模型在SWE-Bench Pro等基准测试中突破55%的任务完成率,其技术影响力已渗透到网络攻防的核心环节。如何在释放技术价值与防范滥用风险之间找到平衡,需要跨企业、跨领域的协同治理。
目前,OpenAI已启动网络安全专项资助计划,重点支持学术界与开源社区的防御技术创新。但业内普遍认为,AI安全治理仍需更完善的规则体系——包括能力分级标准、滥用事件溯源机制等。随着技术持续迭代,这场关于安全与发展的平衡术,或将成为人工智能行业的长期课题。




