现在每个人都可以在电脑内置一个10年经验的安全专家了。
SecGPT-Mini:是一个可以在普通CPU上运行的网络安全大模型。
源码一些勘误:需要python3.9以上,并且transformers依赖库是最新版本
速度比想象中快,有很多群友已经搭建成功开始玩耍了,有好心群友制作了docker镜像,可以一键玩耍
docker pull tanheyii/secgpt-mini:latest docker run -d -p 7860:7860 tanheyii/secgpt-mini:latest
然后访问 IP:7860即可。
Dockerfile
FROM python:slim WORKDIR /secgpt-mini COPY . /secgpt-mini RUN pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple -r requirements.txt EXPOSE 7860 CMD ["python", "webdemo.py", "--base_model", "/secgpt-mini/models"]
docker镜像感谢 @七安
dockerfile感谢 @沉默
好的安全数据对训练网络安全模型帮助很大,手头的数据还是远远不够,几次试验感觉还是没有激发很多大模型对安全的理解,怀疑是数据量还不够。
目前训练数据包含10G安全数据,来源从GitHub,社区论坛,知识星球,安全大会pdf,epub书籍,wooyun等等。清洗完后的训练数据只有1~2G左右。
数据已经开源了一部分:https://huggingface.co/datasets/w8ay/security-paper-datasets
如果读者手中有安全数据可以邮件我,可以来一起训练网络安全领域的大模型,后续也会将数据进行开源(获得许可的情况下)。
需要的数据类型:
安全书籍epub格式(让模型学习安全知识)
大量poc,exp(让模型学习写poc,exp)
ctf writeup (让模型学习做CTF)
安全代码,如免杀,hook,patch类的 (让模型学习写安全代码)
其他认为有帮助的数据
也可以提供rlhf数据:secgpt-mini web界面交互的结果,如何觉得答案好,可以选择“选这个”,如果答案都不好可以自己写一段,然后选择“都不好,反馈”,会在程序根目录下自动生成用于rlhf的数据,也可以将这个数据提供我,作为后面进行提升模型精准度训练的数据。
后续还有打算1是编写爬虫爬取安全类博客文章,2是通过对通用爬虫数据清洗出安全数据 ,有相关经验的读者也可以交流。
邮件地址:master@hacking8.com (最好是邮件,公众号后台不常看,有些不错的私信由于时间间隔过长也无法回复)
后面也会写一些文章教大家如何训练,如何最小资源训练,不同的数据比例训练的模型回答风格也不相同,这块主要看经验,也挺有意思的,欢迎关注我。
做安全大模型是兴趣,欢迎一起交流,邮件:master@hacking8.com
secgpt-mini的模型和源码下载:公众号回复“secgpt-mini”