长亭百川云 - 文章详情

人、科研与大模型:对现状与未来的思考

漏洞战争

51

2024-07-13

我们伫立于大雪弥漫、浓雾障眼的山口,我们只能偶尔瞥见未必正确的路径。我们待在那儿不动,就会被冻死;若是误入歧途,就会摔得粉身碎骨。我们无法确知是否有一条正确的道路。我们该怎么做呢?“你们当刚强壮胆”,往最好处努力,不要说谎,我们要睁大双眼,昂起头颅,走好脚下的路,不管它通向何方。如果死神终结了一切,我们也拿它没办法。如果事情不是这样,那就以大丈夫气概坦然走进下一幕,无论它是什么样子,不要做巧舌之辩,也不要掩饰自己的真面目。

詹姆斯.斯蒂芬 《自由·平等·博爱》

个人观点,仅供参考,如有雷同,纯属巧合。

  • 随着大模型能力的提升,未来各类提示技巧的作用会逐步弱化,因为与聪明人聊天往往不需要过多提示,与傻子聊天怎么提示都没用。

优秀的提示词有助于LLM输出高质量答案,这点是肯定的,也有很多流行的提示技术被提出,比如zero shot, few shot, cot, tot等等。在不同模型上效果不同,同一套prompt迁移到另一个模型可能就没作用,很多时候缺少通用性,甚至有时比不用这些技巧的效果还差。

在实践中,基于LLM解决相同任务上,一年前基于few shot或cot等技巧可能取得更好的效果,但现在更大更新版本的LLM上,直接输入指令就可能达到同等效果。

所以个人觉得,过多地投入在prompt技巧的研究上,除了发论文外,对于多年后的实际工业生产作用不大,而更应该关注如何将专业经验融入prompt去解决实际问题。比如让LLM分析漏洞,参考漏洞分析专家是如何一步步分析漏洞的经验,从sink到source回溯的污点分析技巧,动态调试思路等专业知识的引导更具通用性,以及保持未来有效性。

可以尝试做个实验,对同一模型的旧版与最新版,在应用prompt技巧前后的效果提升上作对比。比如相同问题上,ChatGPT 3.5应用prompt技巧后效果提升的程度,对比GPT-4o应用prompt技巧后效果提升的程度,其它模型类似对比,多尝试不同的知识领域。

  • 在AI领域,算法与算力的研究被认为更具技术含量而广受重视,但数据集的构建往往因其“后勤性质”的工作被忽视。

最糟糕的是,这一切归根结底是个后勤问题,而不是科学问题。我始终确信,ImageNet正是计算机视觉所需要的,要是我们能把这玩意儿搞出来就好了。

《我看见的世界:李飞飞自传》

李飞飞在其自传《我看见的世界》中,曾说过当年在构建ImageNet数据集时遇到的各种困难,当初这工作并不受业界待见,而完成它的难点属于后勤工作,而非技术工作,这也令其颇感尴尬。因为这需要花费大量人力来打标,期间还遇到经费问题,后来是通过众包的方式,让全球各地的人有偿打标才得以完成。她当初是希望构建能够真实反应真实世界的图像集来促进AI的发展,同时能够有一个评估基线来验证相关AI技术的效果,这一观点也是在ImageNet发布3年后,在AlexNet发布后才得以验证成功。

像这种对行业贡献很大,但又没“技术含量”的工作,在学术界不受重视,在工业界则更难,因为这种工作在企业立项都很难通过。ImageNet从立项到证明成功,前后超过5年时间,这在国内企业,你能确保她不会在项目期间被裁吗?

李飞飞当初虽受业界质疑,但至少在学校仍然可以自由研究,在企业基本不太可能。当初OpenAI以每小时不到2美元的价格雇佣肯尼亚工人打标签,投入大量人力去构造高质量数据集。要不是OpenAI ChatGPT成功证明构建高质量的大规模数据可以实现AI能力涌现,提出与践行Scaling Laws,相信国内厂商依然还会只更关注算法。

曾经国内也有厂商在训练大模型时,模型越大反而效果越差,在其算法与算力不变的情况,证明其数据质量很大,而数据规模越大,模型的整体效果就反而越差。这也证明数据模型的增大,是建立在高质量数据的前提下才有效,否则只会反Scaling Laws。

  • 关于LLM应用的新场景带来新的安全隐私挑战,对知识的全面性要求更高。

现在各行各业都希望应用LLM解决自身领域的问题,或者用于提高效率,所以根据用户偏好、需求,越来越多的AI Agent具备更加定制化、个性化的功能和框架,但是新场景就为安全隐私带来新的挑战。传统漏洞攻防、用户隐私保护、AI自身安全等一系列问题融合在一块,早已不是Web、二进制这种简单分类,对知识的全面性要求更高。

  • LLM应用乱象:碰瓷大模型蹭热点、过度唱衰传统技术或行业等等**。**

不要过度迷恋LLM,别啥事都得扯上LLM才感觉创新,才感觉与时俱进。像一些传统规则可以搞定的事,就没必要用LLM来完成。还有像特定领域的NER(命名实体识别),传统小模型(CRF+BERT)也基本能保持高准确率,没必要都非得上LLM,LLM在性能与成本上还不如小模型,特别是需要处理大批量数据的NER时,小模型的性价比更高。

还有另一个场景:AI爬虫。利用LLM可以有效解决网页改版导致的爬虫问题,但它也不见得比规则更靠谱,特别是在准确率和召回率表现上。我曾用LLM提取顶会论文清单,发现提取一部分之后,后面的论文全漏掉了,所以在爬虫场景下,至少当前我更信赖传统方法,尤其是要求高准确率和召回率的情况下。对于网页改版的情况,在写爬虫时,我们尽量剥离对网页元素的依赖,采用更通用的匹配规则或者文本内容的匹配,减少像元素名、属性名这种变动性较大的依赖,可以有效地应对网页的轻量改动。假设AI足够智能,那么AI爬虫可能更好地应对网页改版导致爬虫失效的问题,而且减少开发工作量,从长远看,它仍是一个值得尝试的方向,只是可能当前还不完全具备这种能力而已。

在安全领域,LLM的应用也被广泛探索,近来也读过很多相关的研究论文,总体认识就是:LLM可以提升效率,辅助与弥补传统技术的不足,而非完全替代传统技术。比如漏洞分析与挖掘,很多人尝试用LLM来分析代码进行挖洞,但是它目前仍无法完全替代传统的静态代码技术。因此也有人将静态分析与LLM结合用于静态代码审计、Fuzzing等场景。

近期有人说大模型将取代程序员,那么大模型又由谁来开发呢?如果能够取代,那么就需要更有创造力的程序员来开发,这些岂不互相矛盾。目前在许多应用AI辅助编程的公司中,普遍公布的数据大多是说AI辅助开发50%左右的代码,这可能更接近真实情况。个人更觉得,大模型将取代程序员的言论,有点用屁股决定脑袋的味道,有营销LLM之嫌。

  • 交叉学科的融合应用或可带来新的AI爆点,尤其是生物医学;如果能利用AI解决生物医学难题,这也是我所期望的。

第一次接触深度学习进行手写数字的识别时,我当时想到的是当年的《X线诊断学》这门课。如果当时有模型能够自动读片出诊断结果,那么必然有一套全面且已打标的X片数据集,通过阅读数据集可以快速掌握各种病例的诊断,哪怕是做作业都能快人一步。

目前AI与生物医学的交叉应用一直是热点,一些硅谷公司就投资在此,还有像李飞飞之所以能拿到美国国家医学院院士,也正是因为她将视觉AI应用于医疗场景,包括重症监护、手术监测、老年独立生活支持、医疗文档自动化等方向上,具体可参考其发表在Nature上的论文 Illuminating the dark spaces of healthcare with ambient intelligence

当年神经网络的诞生与神经生物学、脑科学有很大关系,其设计原理正是参考它们的动作机制才产生的灵感。AI的发展很多是从模拟人脑开始的,而人脑又有很多未解之谜待解决,未来新型AI算法的突破,也许跟脑科学的研究更密切。同时利用AI探索药物研发,如果针对癌症找到新靶点,并利用AI研发出新型靶向药,那么对人类生命的贡献比辅助工作、聊天等更具划时代意义。

  • 多读论文开拓眼界,也应正视部分科研套路与现实工业应用的差距。

当年本科刚毕业时,个人基本没太多研究能力,读个论文只知道找个知网,特别是国产论文质量很差,看到最后都懒得看论文了。现在回头看,还是自己的视野太窄,没有从全球学术与工业的研究范围来看待,都不知道洞察相关技术领域在全球范围的技术情况与发展趋势,不同技术领域的顶会顶刊,企业内部研究进展都没去摸底,导致有些工作的实现思路太受限。所以还是应该多读论文开拓眼界,多从全球学术与工业界去洞察全局,站在前人的肩膀上看得更远一点。

学术科研经常将一个问题细拆成一个更小的问题来解决,然后将实验结果对比上次业界SOAT基线取得一点提升,这经常是学术界发论文的套路。有些课题不是将问题拆分成1,2,3,然后逐个解决就能全解决的。比如AEG(自动漏洞利用),有些论文实现AEG取得某种突破,那么它一定存在一些前置条件,而解决1,2,3问题的前置条件组合起来,在实际复杂的软件世界中可能跟中彩票一样。还有就是漏洞数据集形成的偏见,一篇篇论文经常是延袭上一篇同类的论文的数据集,数据集少而无法代表全局,搞出的工具自然也很难具备通用性。不少漏洞已有可利用结论(有poc/exp/write-up),已知利用方式来求解exp,本身也是一种作弊。

有些研究课题可以有效地拆分成子问题,逐一突破,最终解决问题,因此上述观点还得视实际研究课题而定,不是一锤子的事。

  • 我眼中“成功的失败研究”:于己,个人能力有质的提升;于外,解决子问题,有效推动研究课题的下一步研究。

有些科研问题挑战大,时间长,企业在追求实际利益上,往往会避开,或者寻找校企合作,以获得持续的研究投入与最新成果的采摘应用。

高难度的课题必然面临高概率的失败,但有时失败也是一种进展,向他人证明此路行不通,帮助他人避坑。在我眼中,可视为“成功的失败研究”:于己,个人能力有质的提升;于外,解决子领域问题,有效推动研究课题的下一步研究。

既然世界可以无纪律、无原则地用榴梿吻我,那我就只能有组织、有计划地把它做成比萨了。

陶勇《目光》

这年头,没点信心,没点兴趣,搞研究就真难坚持下去,还是需要一种由内而外的驱动力才行。

最后听一曲由中科院物理博导陈涌海演唱的《将进酒》,相信大家天生有材必有用,顺祝大家端午安康。听完该看论文的看论文,该写代码的写代码,继续研究之路上下求索……

相关推荐
关注或联系我们
添加百川云公众号,移动管理云安全产品
咨询热线:
4000-327-707
百川公众号
百川公众号
百川云客服
百川云客服

Copyright ©2024 北京长亭科技有限公司
icon
京ICP备 2024055124号-2