5月16日-5月18日,由CCF主办的2024青年精英大会(YEF2024)在宁波完美结束!本届大会以“智启新局”为主题,邀请到了包括郑纬民、胡事民等160余位来自高校、科研院所、企业的学者、专家及从业者,呈上包括9个特邀报告、5个思想秀报告、2场大会论坛、1场大学生学术秀和23场专题论坛的科技盛宴,为计算领域提供交流机会,促进青年精英人才的成长。
其中,小米大模型算法负责人刘伟作为执行主席在YEF2024成功组织了 “大模型时代AI Agent的挑战、优化与落地之道” 的技术论坛。论坛旨在从学术和产业两个视角探讨AI Agent方向的技术挑战和应用落地,更好的连接学术界和产业界,促进AI Agent方向的研究。论坛首先由执行主席刘伟致开场词,欢迎各位嘉宾和来宾,并介绍了论坛安排、目标和特色;其次,电子科技大学助理教授高莘、中国科学院自动化研究所副研究员张海峰、小米大模型算法负责人刘伟、清华大学助理研究员李元春和联想研究院上海分院算法总监盛兴东分别从AI Agent的不同视角做了技术报告,分享了AI Agent的通用技术前沿,以及AI Agent在智能终端、游戏、巡检机器人等领域的应用、技术挑战和未来;最后,报告嘉宾和小米大模型团队负责人栾剑参加论坛pannel环节的讨论,深刻思辨了AI Agent行业落地面临的真实问题和技术挑战以及未来趋势,为下一步学术研究指引了清晰的方向。
****▍******报告一:**基于大语言模型的工具学习
电子科技大学高莘助理教授作《基于大语言模型的工具学习》的报告,介绍了基于大规模语言模型的智能体工具学习研究的最新进展。报告围绕语言模型智能体的工具调用能力构建展开,首先介绍了该领域的任务定义和常见的标准数据集;其次介绍了工具学习领域早期的研究工作,并梳理的该领域的发展历程;最后探讨语言模型智能体工具使用基础能力的构建方法,并介绍了如何将工具学习方法应用到更多的下游任务上。
****▍******报告二:**大语言模型驱动的游戏智能体
中科院自动化所张海峰副研究员作了《大语言模型驱动的游戏智能体》的报告。报告首先回顾了游戏智能体在人工智能发展史上的显著地位和主要算法。张海峰认为在大模型日益发展的今天,游戏环境仍然具有很大的研究价值,可以作为通用智能体的试验田。报告介绍了博弈决策大模型的一种设计思想和关键研究点,以及在星际争霸、谷歌足球、我的世界等游戏环境中的实验效果,得出了博弈决策大模型在样本效率、泛化性等方面具有优势的结论。最后,报告也展望了博弈决策大模型在金融、体育、交通等更多现实场景中的应用。
小米大模型算法负责人刘伟作《智能手机+AI Agent的行业思考与技术挑战》的报告。报告以ChatGPT为切入点,点出以ChatGPT为代表的大语言模型引爆了当前人工智能界,不仅仅引起了学术机构的重视,企业和投资圈也积极跟进;其次,从产业的视角分析了以小米为代表的科技企业为什么重视大语言模型的研究;接着探讨了大模型驱动的AI Agent和智能手机结合的未来形态、技术挑战和解决方案;最后分享了小米大模型团队在AI Agent方向的工作进展。
**清华大学李元春助理研究员作了《面向软件交互自动化的大模型智能体》的报告,**介绍了基于大语言模型的软件交互自动化技术。李元春首先介绍了终端软件和设备交互方式的发展历程,回顾了基于自然语言的软件交互自动化的传统技术路线,包括模板编写、监督学习、强化学习等,并分析了传统方案的共性问题——可扩展性;其次分析了在大模型时代解决这一问题的可能性和局限性,将大模型直接应用于交互界面的自动理解和控制往往并不有效,由于模型本身有限的领域知识、终端应用交互的复杂性,实现可靠高效的自动化操控仍有较大难度;最后介绍了一个新颖的技术路线,即以应用知识库为中心的任务自动化智能体架构。其中涉及的主要技术包括应用知识库的自动生成,应用知识库的表式方式,应用知识库与智能体的集成方式,以及基于知识库的智能体性能优化方法等。新技术方案展现了较好的技术前景,相关论文AutoDroid已在MobiCom 2024发表并开源。
联想研究院上海分院算法总监盛兴东作了《智能手机+AI Agent的行业思考与技术挑战》的报告。报告从智能巡检机器人的应用出发,分享了大模型驱动的智能巡检机器人面临的技术挑战、行业思考,以及联想研究院的实践经验。盛兴东首先从“巡”、“检”、“控”三个方面分析了巡检机器人在实际落地应用中面临的路线预置、固定任务、环境受限等现状和挑战,引出了理想的具身智能巡检机器人应该具备的能力;然后分析了基于现有LLM,LVM和LAM等模型实现“巡”、“检”、“控”全面升级的可能和技术路径;最后介绍了基于当前的AI和3D相关技术,联想研究院在智能巡检机器人技术升级上的实践,包括使用视觉大模型提升“检”的能力、通过三维提升“巡”的部署效率和三维语义提升导航能力的探索、以及基于强化学习提升机器人本体落脚点控制方面的工作。
Pannel讨论环节,各位嘉宾围绕以下几个问题做了深刻讨论:
硬件+AI Agent 未来可能的最终形态会是什么?有什么样的技术挑战?
AI Agent当前特别火热,请各位嘉宾给AI agent泼个冷水,AI agent的上限到底在哪?有没有一些问题是AI agent不应该解决或者解决不了的?和大家现在当前的预期相违背的?
针对大模型AI agent落地的安全问题,小米对于大模型版权泄露都有做哪些工作?
栾剑认为未来的AI Agent可能会超过人类,但当前仍面临着许多挑战,比如响应速度、多模态感知与输出、以及人与AI Agent之间的高效交互。此外,将来的AI Agent更可能是多Agent形态,系统Agent只负责顶层规划,与相关的APP Agent交互,而非直接控制所有底层操作。在AI Agent会否取代人方面,栾剑认为它应该是人类的助理而非代理,关键的决策和判断还是需要人来完成。
盛兴东认为硬件+AI Agent的未来形态可能会更加智能,具备更多信息维度的输入。盛兴东设想未来的智能硬件可能会具备一定的思维能力和决策能力,类似于一个伴侣或朋友。同时盛兴东提到计算机视觉领域的挑战,如视觉信息的token化,以及在2D和3D建模方面的问题。最后盛兴东认为实现通用人工智能的道路仍然很长,尤其是在视觉领域。
高莘分享了在大模型和小模型融合方面的实验经验。高莘认为大模型和小模型应该分工合作,各自负责适合自己的任务;同时提到了大模型在社交能力和金融领域的局限性,以及在人类社会能力方面的欠缺,认为大模型在某些领域的发展仍有待提高。
李元春认为大模型AI Agent的未来形态可能是多Agent组合,包括通用和专用模型。李元春指出在成本和数据方面,多Agent形态更具优势;同时认为大模型在专用领域可能已经达到超人水平,但在通用领域仍处于较低水平。最后李元春强调了根据不同应用场景来评估大模型能力的重要性。
张海峰对大模型AI Agent的未来持乐观态度,认为大模型在事务性工作方面可能会超越人类,从而将人类从事务性工作中解放出来;张海峰同时提到了通用模型和专用模型是一种配合关系,通用模型负责更多的和人打交道的部分,而专用模型处理的是跟具体事情的部分。
END