除了ChatGPT，OpenAI还有硬货？

引言

越来越多的网安厂商将基于LLM（大语言模型）工具集成到他们的安全产品中。OpenAI的GPT模型更受厂商的青睐。

我们熟知的微软的 Copilot 使用的也是GPT大模型，在 Copilot 推出的一个月后，微软宣布将使用 40000 份威胁情报数据做针对性训练。

与此同时，OX Security（软件供应链安全厂商）与Ironscales（电子邮件安全厂商）在 6 月份的Infosecurity Europe（欧洲信息安全大会）上发布了基于GPT的网络安全领域的大模型。

许多其他供应商也在探索利用 LLM 的可能性，在欧洲信息安全会议期间，Contxt（API安全提供商）CEO Mayur Upadhyaya 表示：

我们在 2021 年获得了一笔创新基金，当时基础模型还没有出现，目的是利用专有数据集建立一个用于个人数据检测的大模型。我们现在正在尝试如何更好地利用这些数据集。

大模型背后的算法

各个大模型背后采用的AI算法是不一样的，厂商公开使用的算法如下：

Egress公司：genetic programming, behavioral analytics-based algorithms, as well as social graphs

遗传编程、基于行为分析的算法以及社交图谱）

Ironscales公司：a broad range of algorithms, including some leveraging natural language processing (NLP), but not LLMs yet

多模态算法的融合，包括一些NLP（自然语言处理）算法，但目前还没有使用 LLMs

Google公司：classifiers, a type of machine learning algorithm used to assign a class label to a data input

网络安全领域使用的大多数AI算法都是分类器，这是一种机器学习算法，用于为数据输入分配类别标签

大模型现状

目前的通用 LLM 往往会产生幻觉（看似合理但错误的回答）。

CISO Jon France（ISC组织）表示：

幻觉问题是通用大模型的通病，这对于网络安全领域来说是一个严重的问题，因为准确性和精确性在网络安全实践中至关重要。

但是，通用大模型 LLM 对网安行业也带来了一定的正向作用：如制定一些安全政策等。

Ganesh Chellappa（ManageEngine公司支持服务负责人）表示：

现在很多企业的解决方案都是基于用户行为分析去做的，他们拥有大量的用户行为数据，但这些有用的数据却没有被真正的利用起来，我们完全可以把这些数据给到 LLM 去做训练。

这些数据可以用作异常行为检测（电子邮件安全、终端安全等）、威胁情报分析等领域。

如果真正把这些数据利用起来，发挥他们的价值，相信会达到事半功倍的效果。

如何解决幻觉问题

_Chellappa_认为:

网安厂商应该充分利用开源大模型，如：Meta的LLaMA，斯坦福大学的Alpaca等，利用这些开源大模型框架去训练自己的数据集，幻觉问题将在很大程度上得到改善。

不过，Niklas Hellemann（SoSafe CEO）表示：

开源模型正在面临一个日益严重的问题：model poisoning。像 LLaMA 这样的开源大模型已经遭受了模型投毒攻击。

模型投毒是一种针对机器学习模型的攻击方式，这种攻击手段通过有意地篡改训练数据集或在训练过程中注入误导信息，从而导致机器学习模型在部署后的行为出现偏差，无法做出准确的预测或决策。

大模型有这么多“问题”，我们如何去解决呢？在此之前，我们有必要了解一下大模型的分类。

大模型分类

我们都知道，大模型一般分两种：

通用大模型
专用大模型

通用大模型

这类模型具备跨领域、跨任务的泛化能力，能够在多种不同的应用场景下表现出较好的适应性和表现力。例如，GPT-3、通义千问等大模型，它们经过大规模预训练后，能够完成文本生成、问答、摘要、翻译等多种自然语言处理任务。

专用大模型

专用大模型也可以称为小模型，专用大模型通常是为某一特定任务或领域设计和训练的大型模型，虽然其参数量也可能很大，但相较于通用大模型，它们在特定领域的性能可能更为突出，因为在设计和训练时就已经考虑了该领域的特殊性，对特定任务有更强的针对性。

小模型在_参数量_、_复杂度_或_任务覆盖面_上较为有限，是专注于某个具体任务或领域内的模型。这类模型在特定场景下因其针对性强、资源消耗相对较小而受到青睐。

既然通用大模型有诸多不便，我们何不使用相对小型、专业的数据集去训练一些特定领域的小模型呢，小模型的性价比理论上是更高的。

OpenAI 推出了基于 GPT 的网安领域小模型

网安领域小模型

基于GPT的各领域小模型有很多：

img

以下基于GPT的网安领域小模型被广泛使用：

编码

Betterscan.io AI Code Analyzer 代码分析器，分析代码质量、是否满足编码规范等
Code Securely 基于OWASP Top 10的安全开发练习，用户可以识别代码中典型的Web漏洞，提高安全开发能力

红队

GP(en)T(ester) 渗透测试助手
HackTricksGPT 根据HackTricks系列书籍提供一些安全建议
MagicUnprotect 提供恶意软件规避方式，如：反窃听、反取证等。
Pentest Reporter 编写渗透测试报告

蓝队

ATT&CK Mate 提供MITRE ATT&CK框架下的最新战术方法
CVEs 查找CVE漏洞的工具
Threat Intel Bot 及时了解APT最新威胁情报
Threat Modelling 威胁建模，识别潜在的漏洞，并提供解决方案

网安行业指导/职业发展

Cyber Security Career Mentor 为初入网安领域的新手提供一些职业规划
Cyber Charli 对8-12岁儿童进行网络安全教育
Cyber Mentor 提供网安进阶学习路线等
Pentester Interviewer 渗透测试行业面试官

总结

任何一项技术都是有两面性的，大模型无疑是一种革命性的工具，其给我们的日常生活带来了极大的便利，它可以提高我们的工作效率，同时也会伴随着各种安全问题，像利用大模型去做网络攻击、诈骗等。

任何技术在发展的过程中，都应该做到“两条腿走路”，不能只关注其便利性，而忽略它带来的负面影响，二者兼顾才能可持续健康发展。

长亭百川云 - 文章详情

长亭百川云