长亭百川云 - 文章详情

GPT-4可自主利用1day漏洞了,0day还会远吗?渗透测试:我慌了!

CodeAnalyzer Ultra

59

2024-07-13

研究发现:GPT-4 可自主利用 87% 的1day漏洞

伊利诺伊大学的研究人员发现,GPT-4 可根据 NIST 公布的漏洞描述信息,通过推理自证等方式成功利用 87% 的漏洞。

研究人员表示:

大语言模型 (LLM) 的_代理能力_越来越强。相较于GPT-4,其他模型在工具使用能力方面差得多。

研究结果表明,GPT-4 可以自主检测和利用可能被渗透工具忽略的1day漏洞。

_美国加州大学洛杉矶分校_助理教授 Daniel Kang 希望他的研究成果能用于网络安全防御,但是,GPT-4的这种能力同时也会被恶意利用

_Daniel Kang_表示 :

我认为,1day漏洞被利用的门槛会随着 LLM 成本的降低而大幅下降。在这之前,利用 1day 漏洞必须通过人为手动的方式。如果 LLM 足够便宜,这个过程很可能会变得更加自动化

GPT-4 的自主检测和利用漏洞能力有多强

GPT-4 具备自主利用 1day 漏洞的能力。

GPT-4 代理能够自主利用 Web非Web 的 1day 漏洞,其甚至可以利用模型知识库截止日期之后披露的漏洞。

_Daniel Kang_表示:

在之前的实验中,我们发现GPT-4在制定计划实施计划方面表现非常出色,GPT-4代理可实时访问互联网,可以及时收集披露的_漏洞描述信息与利漏洞用方式_等数据。

我们所说的“autonomous”的意思是:GPT-4可以自主制定利用漏洞的方案(计划),这一项能力非常强大,因为从漏洞描述到真正地利用该漏洞,这中间要做的事还有很多

许多真实环境中存在的漏洞已经被公布了,如 ACIDRain(造成了超过 5000 万美元的实际损失),然而,想要真正利用这些漏洞_并非易事_。

在实验的 15 个 1day 漏洞中,只有两个无法利用:

  • Iris XSS

  • Hertzbeat RCE

作者推测原因:

  • Iris Web应用难以预览

  • Hertzbeat RCE 的中文描述很难用英文去理解

GPT-4 无法自主利用 0day 漏洞

GPT-4 代理通过漏洞描述信息去利用漏洞的成功率高达 87%,但在不提供漏洞描述时,成功率只有 7%,这表明GPT-4目前还不能利用 0day 漏洞。研究人员表示,这一结果表明:

LLM 利用漏洞的能力远远超过发现漏洞的能力。

成本:GPT-4 vs. 渗透人员

研究人员表示:

GPT-4 成功利用每个漏洞的平均成本为 8.8 美元;而对于一名专业渗透测试人员,每个漏洞的利用成本为25美元(花费半小时)。

GPT-4的相关运行成本会逐渐降低,因为GPT-3.5的成本在短短一年内就下降了三倍之多

LLM相对于技术人员,具备一定的可扩展性

GPT-4 自主利用漏洞需要频繁试错

大部分漏洞需要多次操作才能被成功利用,有的多达 100 次。有趣的是,平均操作次数与是否获取漏洞描述没有必然联系,实验证明GPT-4在利用1day0day时进行的操作次数相差不大。

_Daniel Kang_表示:

若没有 CVE 描述信息,GPT-4 更容易放弃,因为它不知道该走哪条路。

如何测试 LLM 的漏洞利用能力

研究人员首先从 CVE 数据库学术论文中收集了一个基准数据集,其中包含 15 个真实存在的1day漏洞。这些可复现的开源漏洞包括_Web漏洞_、容器漏洞_和_Python 缺陷包,其中有一半以上风险等级为 “high ”或 “critical”。

接下来,他们开发了一个基于 ReAct 自动化框架的 LLM 代理,这意味着它可以推理下一步行动、构建行动命令、使用适当的工具执行命令,并在交互式操作过程中重复执行命令。开发人员只需编写 91 行代码就能创建代理。

LLM代理不仅支持GPT-4,还支持以下模型:

  • GPT-3.5.

  • OpenHermes-2.5-Mistral-7B.

  • Llama-2 Chat (70B).

  • LLaMA-2 Chat (13B).

  • LLaMA-2 Chat (7B).

  • Mixtral-8x7B Instruct.

  • Mistral (7B) Instruct v0.2.

  • Nous Hermes-2 Yi 34B.

  • OpenChat 3.5.

该代理配备了自主利用系统漏洞所需的工具,如Web浏览器、终端、Web搜索、文件创建和编辑功能以及代码解释器等。它还可以爬取 CVE 数据库的漏洞描述信息。

此外,研究人员为每个代理提供了详细的提示信息,不断探索利用 15 个漏洞的不同方法,提示信息包含 1056 个 "tokens"。

代理的性能衡量标准包含以下几个方面:

  • 输入和输出的token数量

  • 漏洞利用成功率

  • 漏洞复杂性

  • 经济成本

为了模拟0day环境,研究人员在不提供漏洞信息的情况下进行多次实验,代理既要发现漏洞,又要成功利用漏洞。

此外,使用 ZAPMetasploit 工具进行对比实验,向工具输入相同的漏洞样本,对比传统漏扫工具与LLM的能力。

最终,研究人员发现:

只有基于 GPT-4 的 LLM 代理才能发现并利用1day漏洞,其他 LLM 和两个漏扫工具的成功率都为 0%

为何要测试 LLMs 的漏洞利用能力

  • 在此之前,人们没有对 LLM自主利用1day漏洞的能力做系统性的研究。

  • CVE披露的漏洞信息有很大一部分是不包含exp的,渗透测试人员需要自己去研究漏洞原理从而真正利用或者修复漏洞,该项研究旨在探索LLM

    自主实现

    这一过程的可行性。

_Daniel Kang_表示:

我们实验室关注的是包括代理在内的人工智能技术在各领域中具备哪些能力,这些能力是否可以真正运用到生产或生活环境中。

网络安全的重要性显而易见,因此,我们最近把研究重点放在了网络安全上。

相关推荐
关注或联系我们
添加百川云公众号,移动管理云安全产品
咨询热线:
4000-327-707
百川公众号
百川公众号
百川云客服
百川云客服

Copyright ©2024 北京长亭科技有限公司
icon
京ICP备 2024055124号-2