前天参加了涛哥主持的信创联盟会议网络安全分享交流,主题是大模型在安全领域的应用探讨。
与会的网安专业人士,想必多少和我有同感,面对大模型既抱憧憬又存疑虑。我们不断努力突破舒适区,拼搏在陡峭的学习曲线上,以积累专业知识和技能。而这些日积月累,在大模型面前,尚能饭否?
论坛现场隐含了答案,所展示的大模型应用范例,无不从专业领域知识出发,通过训练验证不断优化模型,以期模型能更好地协助日常运营。似乎是我们需要调整定位,成为技术与模型的融合创新者。
论坛体验很好,知未知,见未见,写篇笔记分享一下。
*笔记疏漏错误难免,具体内容还请以各位讲者的现场发言为准。
目录
- ❤️学习感悟
- 🌟论坛亮点
- 居然有这么顺溜的科普
- 有同行举着火把在帮大家探路
- 安全垂直领域大模型的光环
- 网络安全要重视大模型飞轮
- 🎭主题1:深度伪造技术
- 深度伪造的影响领域
- 技术分类及威胁等级
- 技术原理
- 法律法规
- 威胁应对挑战
- 📊主题2:大模型与代码安全
- LLM的能力边界
- 领域知识训练大模型
- 实证研究论文
- 🔍主题3:大模型与安全检测运营
- Gartner:大模型重塑网络安全
- 🔄主题4:大模型飞轮
- 机器人误判怎么办?
- ⚔️ 结语:观点碰撞,疑义相析
顺畅通达的科普,以及艰苦严谨的实证分析,是最宝贵的,可以让更多人正确理解新技术的应用场景、优势和局限。
大模型在安全领域应用有能力边界,领域知识是训练和改进大模型的基础,依赖于领域知识的微调、语料库构建和上下文信息供给,是RAG(Retrieval-Augmented Generation)模型训练和应用的核心步骤。
交大王士林院长的演讲主题是深度伪造技术,内容系统丰富,覆盖了语音、图像、视频等多模态领域,案例直观有趣,语言简洁通俗。
作为学界研发前沿技术,是支撑业界实际应用的重要上游,王院长概括梳理了深度伪造技术的各个关键环节,并阐述了这些技术通过正向生成和逆向检测的相互制衡机制。
他的演讲深入浅出,让我们对该领域的技术发展及应对之道既知其然又知其所以然,在轻松愉悦的氛围完成一次体验很棒的科普。
蜚语科技CEO束骏亮的演讲主题是软件供应链安全,这个细分领域也是我正在深耕的,当然我也纠结在翻越过陡峭的学习曲线之后,会不会被大模型颠覆。
大模型能不能、适不适合做代码分析和漏洞分析?束博士根据很严谨的实验设计,做了大量的实证研究,得出多个维度的结果分析,即大模型针对Benchmark样本以及真实生产代码的分析,目前噪音太多,存在能力边界。这种艰苦而严谨的基础性工作,对在业界同仁很有价值,他们的相关的论文已经发表。
束博士也针对性地开发了两款产品以优化模型效果,已发布开源社区版。
深信服吴昌坤吴总介绍了安全垂直领域已经备案的大模型,分享大模型在未知威胁检测、防钓鱼、数据分类分级、开发安全、辅助运营的应用案例。
吴总还现场回答了大家感兴趣的私有化大模型落地经验、模型如何进化、语料库来源及竞争态势等问题。
奇安信的刘园园作为美女讲者,亲和力强,让现场与会者爽朗开怀大笑之余,也感觉大模型后生可畏。
刘经理以告警疲劳、效率瓶颈、专家稀缺入手,阐述行业未来在于“用大模型推动企业安全能力提升,用企业安全能力提升推动行业安全防御体系进一步发展,用行业反哺模型发展”的大模型飞轮。
政治安全:可生成虚假政治人物言论视频,如让奥巴马唱我爱我的祖国。
金融安全:换脸骗取转账,实时换脸,换语音。“老总”打微信视频电话叫财务转账的真实案例;
隐私安全:平台默认规则包含”允许自己的脸给别人用“;可攻破活体认证系统,检测工具主要在学界,商用比较少。
肖像安全:直播用明星的脸
全脸生成,静态,问题不大
属性修改,如:带墨镜
面部替换,威胁大,因为背景不变。
表情重现,威胁最大,可以说任何东西。门槛不高,软件用deep face live, 硬件2080显卡就可以了。
我简单理解,深度伪造不是传统的物理和数字的数字孪生,是数字对数字的数字孪生,而且是双向的孪生,能参照生成,也能检测区分。
任何组织和个人不得采用技术手段删除、篡改、隐匿深度合成数据和技术相关标识。
高对抗性,针对现有防御的特定攻击
高泛化性要求,与时俱进的深度伪造技术,差异化的内容和细微的生成痕迹
LLM在代码安全领域的应用有能力边界,和传统分析方法效果区别明显。
会后请教了束总关于语法树特征提取和分析与大模型的关系,以及蜚语安全两个产品的微调/RAG和程序行为数据的表达,束总直观解释机理,并表示领域知识是训练的基础,大模型可以降低后续规则应用的复杂性。
Wu F, Zhang Q, Bajaj A P, et al. Exploring the Limits of ChatGPT in Software Security Applications[J]. arXiv preprint arXiv:2312.05275, 2023
蜚语的开源版,https://github.com/Feysh-Group/corax-community,专门做java高精度分析的,可以自定义规则,先加star再学习。
组织将受益于生成式网络安全人工智能,因为它可以提高效率并缩短对网络安全风险和威胁的响应时间
网络安全供应商可以利用生成式网络安全人工智能来改进现有的工作流程,开展安全分析,生成安全配置或真实的攻击数据。很快,自动化值守能力将出现,可以自主基于高级指引运行,而不需要频繁提示对话。
大模型的应用需要人机配合,确保最终判断符合专业标准,但谁对模型输出结果负责还是一个开放性的问题。
在网络安全垂直细分领域,大模型仍处于比较前沿的探索阶段,先期也只能找到科研院所,安全厂商这些“早鸟”,分享他们对大模型能力的不同看法和支撑数据。
组织方行业网络安全创新实验室期待未来随着大模型在行业的推广应用,能有更多甲方能分享他们在实践中的经验,因为他们更接近深层次的需求,能促进更深入的讨论。
观点共碰撞,疑义相与析,理性而开放的技术交流,正是行业进步的动力。