人、科研与大模型：对现状与未来的思考

我们伫立于大雪弥漫、浓雾障眼的山口，我们只能偶尔瞥见未必正确的路径。我们待在那儿不动，就会被冻死；若是误入歧途，就会摔得粉身碎骨。我们无法确知是否有一条正确的道路。我们该怎么做呢？“你们当刚强壮胆”，往最好处努力，不要说谎，我们要睁大双眼，昂起头颅，走好脚下的路，不管它通向何方。如果死神终结了一切，我们也拿它没办法。如果事情不是这样，那就以大丈夫气概坦然走进下一幕，无论它是什么样子，不要做巧舌之辩，也不要掩饰自己的真面目。

詹姆斯．斯蒂芬《自由·平等·博爱》

个人观点，仅供参考，如有雷同，纯属巧合。

随着大模型能力的提升，未来各类提示技巧的作用会逐步弱化，因为与聪明人聊天往往不需要过多提示，与傻子聊天怎么提示都没用。

优秀的提示词有助于LLM输出高质量答案，这点是肯定的，也有很多流行的提示技术被提出，比如zero shot, few shot, cot, tot等等。在不同模型上效果不同，同一套prompt迁移到另一个模型可能就没作用，很多时候缺少通用性，甚至有时比不用这些技巧的效果还差。

在实践中，基于LLM解决相同任务上，一年前基于few shot或cot等技巧可能取得更好的效果，但现在更大更新版本的LLM上，直接输入指令就可能达到同等效果。

所以个人觉得，过多地投入在prompt技巧的研究上，除了发论文外，对于多年后的实际工业生产作用不大，而更应该关注如何将专业经验融入prompt去解决实际问题。比如让LLM分析漏洞，参考漏洞分析专家是如何一步步分析漏洞的经验，从sink到source回溯的污点分析技巧，动态调试思路等专业知识的引导更具通用性，以及保持未来有效性。

可以尝试做个实验，对同一模型的旧版与最新版，在应用prompt技巧前后的效果提升上作对比。比如相同问题上，ChatGPT 3.5应用prompt技巧后效果提升的程度，对比GPT-4o应用prompt技巧后效果提升的程度，其它模型类似对比，多尝试不同的知识领域。

在AI领域，算法与算力的研究被认为更具技术含量而广受重视，但数据集的构建往往因其“后勤性质”的工作被忽视。

最糟糕的是，这一切归根结底是个后勤问题，而不是科学问题。我始终确信，ImageNet正是计算机视觉所需要的，要是我们能把这玩意儿搞出来就好了。

《我看见的世界：李飞飞自传》

李飞飞在其自传《我看见的世界》中，曾说过当年在构建ImageNet数据集时遇到的各种困难，当初这工作并不受业界待见，而完成它的难点属于后勤工作，而非技术工作，这也令其颇感尴尬。因为这需要花费大量人力来打标，期间还遇到经费问题，后来是通过众包的方式，让全球各地的人有偿打标才得以完成。她当初是希望构建能够真实反应真实世界的图像集来促进AI的发展，同时能够有一个评估基线来验证相关AI技术的效果，这一观点也是在ImageNet发布3年后，在AlexNet发布后才得以验证成功。

像这种对行业贡献很大，但又没“技术含量”的工作，在学术界不受重视，在工业界则更难，因为这种工作在企业立项都很难通过。ImageNet从立项到证明成功，前后超过5年时间，这在国内企业，你能确保她不会在项目期间被裁吗？

李飞飞当初虽受业界质疑，但至少在学校仍然可以自由研究，在企业基本不太可能。当初OpenAI以每小时不到2美元的价格雇佣肯尼亚工人打标签，投入大量人力去构造高质量数据集。要不是OpenAI ChatGPT成功证明构建高质量的大规模数据可以实现AI能力涌现，提出与践行Scaling Laws，相信国内厂商依然还会只更关注算法。

曾经国内也有厂商在训练大模型时，模型越大反而效果越差，在其算法与算力不变的情况，证明其数据质量很大，而数据规模越大，模型的整体效果就反而越差。这也证明数据模型的增大，是建立在高质量数据的前提下才有效，否则只会反Scaling Laws。

关于LLM应用的新场景带来新的安全隐私挑战，对知识的全面性要求更高。

现在各行各业都希望应用LLM解决自身领域的问题，或者用于提高效率，所以根据用户偏好、需求，越来越多的AI Agent具备更加定制化、个性化的功能和框架，但是新场景就为安全隐私带来新的挑战。传统漏洞攻防、用户隐私保护、AI自身安全等一系列问题融合在一块，早已不是Web、二进制这种简单分类，对知识的全面性要求更高。

LLM应用乱象：碰瓷大模型蹭热点、过度唱衰传统技术或行业等等**。**

不要过度迷恋LLM，别啥事都得扯上LLM才感觉创新，才感觉与时俱进。像一些传统规则可以搞定的事，就没必要用LLM来完成。还有像特定领域的NER（命名实体识别），传统小模型（CRF+BERT）也基本能保持高准确率，没必要都非得上LLM，LLM在性能与成本上还不如小模型，特别是需要处理大批量数据的NER时，小模型的性价比更高。

还有另一个场景：AI爬虫。利用LLM可以有效解决网页改版导致的爬虫问题，但它也不见得比规则更靠谱，特别是在准确率和召回率表现上。我曾用LLM提取顶会论文清单，发现提取一部分之后，后面的论文全漏掉了，所以在爬虫场景下，至少当前我更信赖传统方法，尤其是要求高准确率和召回率的情况下。对于网页改版的情况，在写爬虫时，我们尽量剥离对网页元素的依赖，采用更通用的匹配规则或者文本内容的匹配，减少像元素名、属性名这种变动性较大的依赖，可以有效地应对网页的轻量改动。假设AI足够智能，那么AI爬虫可能更好地应对网页改版导致爬虫失效的问题，而且减少开发工作量，从长远看，它仍是一个值得尝试的方向，只是可能当前还不完全具备这种能力而已。

在安全领域，LLM的应用也被广泛探索，近来也读过很多相关的研究论文，总体认识就是：LLM可以提升效率，辅助与弥补传统技术的不足，而非完全替代传统技术。比如漏洞分析与挖掘，很多人尝试用LLM来分析代码进行挖洞，但是它目前仍无法完全替代传统的静态代码技术。因此也有人将静态分析与LLM结合用于静态代码审计、Fuzzing等场景。

近期有人说大模型将取代程序员，那么大模型又由谁来开发呢？如果能够取代，那么就需要更有创造力的程序员来开发，这些岂不互相矛盾。目前在许多应用AI辅助编程的公司中，普遍公布的数据大多是说AI辅助开发50%左右的代码，这可能更接近真实情况。个人更觉得，大模型将取代程序员的言论，有点用屁股决定脑袋的味道，有营销LLM之嫌。

交叉学科的融合应用或可带来新的AI爆点，尤其是生物医学；如果能利用AI解决生物医学难题，这也是我所期望的。

第一次接触深度学习进行手写数字的识别时，我当时想到的是当年的《X线诊断学》这门课。如果当时有模型能够自动读片出诊断结果，那么必然有一套全面且已打标的X片数据集，通过阅读数据集可以快速掌握各种病例的诊断，哪怕是做作业都能快人一步。

目前AI与生物医学的交叉应用一直是热点，一些硅谷公司就投资在此，还有像李飞飞之所以能拿到美国国家医学院院士，也正是因为她将视觉AI应用于医疗场景，包括重症监护、手术监测、老年独立生活支持、医疗文档自动化等方向上，具体可参考其发表在Nature上的论文 Illuminating the dark spaces of healthcare with ambient intelligence 。

当年神经网络的诞生与神经生物学、脑科学有很大关系，其设计原理正是参考它们的动作机制才产生的灵感。AI的发展很多是从模拟人脑开始的，而人脑又有很多未解之谜待解决，未来新型AI算法的突破，也许跟脑科学的研究更密切。同时利用AI探索药物研发，如果针对癌症找到新靶点，并利用AI研发出新型靶向药，那么对人类生命的贡献比辅助工作、聊天等更具划时代意义。

多读论文开拓眼界，也应正视部分科研套路与现实工业应用的差距。

当年本科刚毕业时，个人基本没太多研究能力，读个论文只知道找个知网，特别是国产论文质量很差，看到最后都懒得看论文了。现在回头看，还是自己的视野太窄，没有从全球学术与工业的研究范围来看待，都不知道洞察相关技术领域在全球范围的技术情况与发展趋势，不同技术领域的顶会顶刊，企业内部研究进展都没去摸底，导致有些工作的实现思路太受限。所以还是应该多读论文开拓眼界，多从全球学术与工业界去洞察全局，站在前人的肩膀上看得更远一点。

学术科研经常将一个问题细拆成一个更小的问题来解决，然后将实验结果对比上次业界SOAT基线取得一点提升，这经常是学术界发论文的套路。有些课题不是将问题拆分成1，2，3，然后逐个解决就能全解决的。比如AEG（自动漏洞利用），有些论文实现AEG取得某种突破，那么它一定存在一些前置条件，而解决1，2，3问题的前置条件组合起来，在实际复杂的软件世界中可能跟中彩票一样。还有就是漏洞数据集形成的偏见，一篇篇论文经常是延袭上一篇同类的论文的数据集，数据集少而无法代表全局，搞出的工具自然也很难具备通用性。不少漏洞已有可利用结论（有poc/exp/write-up），已知利用方式来求解exp，本身也是一种作弊。

有些研究课题可以有效地拆分成子问题，逐一突破，最终解决问题，因此上述观点还得视实际研究课题而定，不是一锤子的事。

我眼中“成功的失败研究”：于己，个人能力有质的提升；于外，解决子问题，有效推动研究课题的下一步研究。

有些科研问题挑战大，时间长，企业在追求实际利益上，往往会避开，或者寻找校企合作，以获得持续的研究投入与最新成果的采摘应用。

高难度的课题必然面临高概率的失败，但有时失败也是一种进展，向他人证明此路行不通，帮助他人避坑。在我眼中，可视为“成功的失败研究”：于己，个人能力有质的提升；于外，解决子领域问题，有效推动研究课题的下一步研究。

既然世界可以无纪律、无原则地用榴梿吻我，那我就只能有组织、有计划地把它做成比萨了。

陶勇《目光》

这年头，没点信心，没点兴趣，搞研究就真难坚持下去，还是需要一种由内而外的驱动力才行。

最后听一曲由中科院物理博导陈涌海演唱的《将进酒》，相信大家天生有材必有用，顺祝大家端午安康。听完该看论文的看论文，该写代码的写代码，继续研究之路上下求索……

长亭百川云 - 文章详情

长亭百川云

长亭百川云 - 文章详情

长亭百川云

人、科研与大模型：对现状与未来的思考