因果科学+大模型研究前沿概述与展望 | 周日直播

导语

本次是因果科学+大模型读书会的第一期，希望能够给不同学科领域的学者一个全面的视角，不会涉及到过多的技术细节，旨在全面的介绍因果科学+大模型的全貌，将会由马普所的博士研究生Felix Leeb、即将在多伦多大学担任助理教授的金致静博士以及即将在布里斯托大学担任助理教授的杨梦月博士分别从不同的角度，分享该领域最新的研究成果。

集智俱乐部联合北京大学大数据科学研究中心博士研究生李昊轩、伦敦大学学院计算机博士研究生杨梦月，卡耐基梅隆大学和穆罕默德·本·扎耶德人工智能大学博士后研究员陈广义共同发起「因果科学+大模型」读书会。这是我们因果科学系列读书会的第五季，旨在探讨在大模型之后为何仍需“因果科学”？大模型如何推动因果科学的研究进展？因果科学能否在推理能力、可解释性和可信性等方面启发更优大模型的设计？以及因果科学的最新进展如何在实际领域中应用和落地？希望汇聚相关领域的学者，共同探讨因果科学的发展和挑战，推动学科发展。

摘要

大语言模型在多个领域内具有广泛的知识，可以在多种任务上达到出色的性能，例如生成逼真图像、多语言翻译和诗歌创作。然而，大模型也存在一些局限性：

- 缺乏因果理解：难以辨别事物间的因果关系，导致在新情景下容易做出错误决策；

- 数据偏差影响：训练数据偏差可能导致学习到错误因果关系，产生不公平或不合理的预测；

- 可解释性不足：决策过程难以解释，令人难以信任其判断和改进。

在很多情况下，语言任务需要理解驱动数据模式的潜在因果机制，因果推理研究在提高自然语言处理模型的预测准确性、公平性、鲁棒性和可解释性方面展现出重要潜力。

**本次是因果科学+大模型读书会的第一期，希望能够给不同学科领域的学者一个全面的视角，不会涉及到过多的技术细节，旨在全面的介绍因果科学+大模型的全貌，**所以本次分享将从三个角度探讨因果科学与大型模型的结合：

第一部分将由马普所的博士研究生Felix Leeb全面介绍因果科学与大型模型的交叉研究领域，并梳理相关研究视角；

第二部分将由即将在多伦多大学担任助理教授的金致静博士从自然语言处理研究者的角度，探讨如何将因果关系嵌入到大模型中，构建更稳健、可靠且负责任的AI系统；

第三部分将由即将在布里斯托大学担任助理教授的杨梦月博士从因果强化学习的角度，研究如何利用因果推理来增强大型语言模型和AI代理的决策能力，提升其可解释性和稳定性。

Felix Leeb：大模型时代下，为什么仍需要因果科学？

大语言模型在文本理解和生成方面展现出了卓越的性能，引发了学术界和相关领域的广泛关注。为什么这些大语言模型效果如此出色？尽管在各种基准测试中表现优异，有时甚至超越人类专家水平，但这些“黑匣子”模型的规模和复杂性增加了对其可信度和可靠性的担忧。在什么情况下我们可以信任大语言模型，如何改进？因果科学和大语言模型结合的机会在哪里？为什么我们还需要因果科学？

本次报告将探讨因果关系与大语言模型的协同作用，涵盖因果关系在大语言模型中的评估、应用因果关系于大语言模型的方法改进、利用大语言模型改进因果推断和发现、以及研究大语言模型的因果结构如何运作及如何使其更易解释和可控。

金致静：基于因果推理构建稳健、可靠、负责任的大语言模型

大语言模型（LLMs）在自然语言处理（NLP）领域的进展令人瞩目，但这些模型往往会拟合虚假相关性，导致在域迁移和对抗攻击下表现不稳定。为应对这一挑战，我们提出了一个以因果推理为核心的框架，旨在提升LLMs的稳健性和公平性。该框架通过研究人类决策与大语言模型决策机制间的因果关系对齐，开发了一套涵盖文本分类、自然语言推理和数学推理等任务的评估基准。同时，我们提出通过使LLMs的学习方向与数据生成方向对齐，来显著提高其稳健性。利用这一因果推理框架，我们评估了LLMs中的因果和逻辑推理有效性，对打击虚假信息具有重要作用。

更重要的是，这部分的研究可以扩展到社会科学领域，研究社会现象中的因果关系，如政策影响分析和性别偏见测量。我们通过确保LLMs的可靠性并在多种社会应用中发挥其影响力，为实现负责任的AI系统提供了一条明确的路线图。

杨梦月：因果推理如何赋能大语言模型和AI Agent？

在大型语言模型（LLMs）中，代理（Agent）的决策通常通过三种方式进行政策学习：利用专家数据的监督微调（SFT），上下文学习（ICL）和强化学习（RL）。然而，这些方法缺乏可解释性，导致对世界和系统的理解产生不确定性，从而导致决策的方向变得不受控制或低效。因果推理作为一种用于解释性分析的强大建模工具，通过分析事件之间的因果关系，使人们能够更好地理解事物发展的规律，从而帮助LLMs的决策过程更加逻辑化和专注于因果效应，提高系统的可解释性和稳定性。在本讲座中，我将介绍LLMs和代理的基础知识，以及有关因果推理和因果建模在增强代理决策能力方面的一系列研究工作。通过这些研究，我们旨在提高代理的决策可解释性和效率，实现更可靠和可控制的决策过程。

主讲嘉宾介绍

Felix Leeb 是德国智能系统马克斯·普朗克研究所的博士研究生，在Bernhard Schölkopf的指导下，致力于因果表征学习和评估大型语言模型的推理能力。先前，Felix Leeb 在美国西雅图的华盛顿大学完成了物理、化学和计算机科学的学士学位，并进行了关于物体姿势估计视觉运动控制、使用分子动力学模拟研究细胞膜结构等研究。

金致静博士即将于2025年夏季加入多伦多大学（University of Toronto）计算机科学系，担任助理教授。她现在是马克斯·普朗克研究所博士生，由马克斯普朗克研究所和苏黎世联邦理工学院的 Bernhard Schoelkopf指导，由Rada Mihalcea (密歇根大学)指导，并由苏黎世联邦理工学院的Mrinmaya Sachan共同指导。她的研究重点是通过因果推理实现对社会负责的 NLP。具体来说，分为以下两个部分：(1) 推动 NLP 造福社会；(2) 开发CausalNLP，以提高 NLP 模型的稳健性、公平性和可解释性，并分析社会问题的原因。

杨梦月博士即将于2024年底加入布里斯托大学（University of Bristol）担任助理教授。她现在是伦敦大学学院计算机博士生，导师为汪军教授。主要研究兴趣为因果表征学习，多智能体，强化学习等。主要研究方向为基于因果表示的决策系统。博士期间在人工智能顶级会议期刊 NeurIPS，CVPR，KDD，SIGIR，WWW，ACM TOIS等发表若干研究成果，并被KAUST评选为Rising Star in AI。目前担任NeurIPS，ICML，ICLR，KDD，TNNLS等会议期刊的PC member或审稿人。

个人主页：https://ymy4323460.github.io/

主持人介绍

李昊轩，北京大学大数据科学研究中心，数据科学（统计学）博士，CCF会员、IEEE会员、ACM会员。研究兴趣为因果机器学习理论、反事实公平性、推荐系统去偏、分布外泛化、多源数据融合、生物信息学和大语言模型等。已在ICML、NeurIPS、ICLR、KDD、WWW、AAAI、IJCAI等多个CCF-A顶尖会议以第一作者发表多篇论文，其中5篇论文被评选为Spotlight或Oral，现为ICML、NeurIPS、ICLR、KDD、WWW、AAAI、IJCAI等多个顶会PC member或Area Chair，以及TKDE、TOIS、TKDD、The Innovation、《中国科学：信息科学》等多个顶级期刊审稿人，14项发明专利。连续两年获得北京大学博士最高研究奖“校长奖学金”，获国家奖学金，九坤（人工智能方向）奖学金，北京大学三好学生，两项成果获北京大学“挑战杯”五四青年科学奖特等奖，并获得首批国家自然科学基金青年学生基础研究项目（博士研究生）30万资助。

直播信息

直播时间：

7月7日20:30-21:30（周日），直播报名入口见后文。

参与方式：

集智俱乐部 B站和视频号免费直播，扫码可预约：

扫码预约本次直播

若需要观看视频回放，文末扫码付费参加可加入腾讯会议，可提问交流、加入群聊、获取视频回放及更多学习资料，成为因果科学社区种子用户，与一线科研工作者沟通交流，共同推动因果科学社区的发展。

时间安排：

说明：Felix Leeb的时差问题，我们调整到了最后一个分享。

20:30pm-21:10pm

金致静

基于因果推理构建稳健、可靠且负责任的大模型系统

21:10pm-21:50pm

杨梦月

因果赋能大模型中的智能体（Agent）决策

21:50pm-22:30pm

Felix Leeb

大模型时代下，为什么仍需要因果科学？

22:30pm-23:10pm

全体讨论

因果科学和大模型结合的机会在哪里？

因果科学和大模型结合有哪些挑战？

===

参考文献

[1] Xiaoyu Liu, Paiheng Xu, Junda Wu, Jiaxin Yuan, Yifan Yang, Yuhang Zhou, Fuxiao Liu, Tianrui Guan, Haoliang Wang, Tong Yu, Julian McAuley, Wei Ai, and Furong Huang. Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey, March 2024.

[2] Linying Yang, Oscar Clivio, Vik Shirvaikar, and Fabian Falck. A critical review of causal inference benchmarks for large language models. In AAAI 2024 Workshop on”Are Large Language Models Simply Causal Parrots?”, 2023.

[3] Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin, Peter Hase, Ekdeep Singh Lubana, Erik Jenner, Stephen Casper, Oliver Sourbut, et al. Foundational challenges in assuring alignment and safety of large language models. arXiv preprint arXiv:2404.09932, 2024.

[4] Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng Lyu, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, et al. CLadder: A benchmark to assess causal reasoning capabilities of language models. Advances in Neural Information Processing Systems, 36, 2024.

金致静老师整体的关于Tutorial：

https://zhijing-jin.com/files/papers/2024\_CausalLLM\_Tutorial.pdf

因果科学社区

“因果”并不是一个新概念，而是一个已经在多个学科中使用了数十年的分析技术。集智俱乐部在过去4年期间围绕研究人员的不同角度的需求，举办了4季相关主题的读书会，形成了数千人规模的社区。

【第一季：因果科学与Causal AI】基于《Elements of Causal Inference》，探讨因果科学在机器学习方面的应用，如强化学习和迁移学习等，并分享工业应用。

【第二季：因果科学与基础实战】聚焦实操和基础，深入学习《Causal inference in statistics: A primer》和《Elements of causal inference: foundations and learning algorithms》。

【第三季：因果科学与Causal +X】回顾社会学、经济学、医学，计算机等领域的因果模型和范式，尝试用现代模型提供新思路。

【第四季：因果表征学习】探讨因果表征学习的理论、技术和最新应用，涉及因果生成模型、可解释性、公平性及工业落地。

第五季读书会主要围绕因果科学的最新进展，包括因果科学与大模型的结合等方面进行深度的探讨和梳理，希望给在这个领域的研究者提供一个全面的研究图景。共同探讨因果科学的未来发展以及面临的挑战。

详情请见：速来！因果与大模型的双向赋能丨因果科学第五季强势回归

点击“阅读原文”，报名读书会

长亭百川云 - 文章详情

长亭百川云