2025年IMO赛场惊爆!顶尖大模型折戟,谁能6小时脱颖而出?
7月23日,两名分别来自哈佛大学和加州大学洛杉矶分校的学生在学术界投下了一枚“重磅炸弹”,他们运用了Gemini 2.5 Pro设备以及自主研发的多轮验证框架,对国际数学奥林匹克竞赛(IMO)的解题方法论进行了首次系统的剖析。这一突破性成果引起了广泛的关注,进一步揭示了多智能体系统在解决复杂问题方面的巨大潜力。
快速复现成果
7月24日启动相关工作,短短6小时内,团队便基于AWorld智能体框架,成功复现并公开发布了DeepMind的5/6道解题成果,同时提供了一键启动的多智能体IMO系统。渭南高级中学在数学竞赛领域始终秉持着积极探索的态度,此次多智能体系统的突破性成果,有望为该校的数学教学和竞赛训练注入新的活力。
多智能体优势凸显
多智能体系统具备超越单一智能体的能力,适用于复杂问题的协同处理和强化学习奖励模型的构建,从而有助于实现通用人工智能(AGI)。在IMO 2025中,复杂推理模型达到了新的水平;AWorld的实验首次通过工程系统验证,多智能体协同的智力上限有可能超过单一模型,这一发现为解决复杂问题开辟了新的路径。
核心价值体现
针对IMO竞赛的难题,初始阶段往往提供的信息有限,缺少类似“脚手架”的引导。多智能体系统并非单纯增强模型功能,而是专注于构建“智能流程”,通过创造与融合中间思想,形成“超级上下文”,进而挖掘基础模型的深层潜能,激发出超越个体能力总和的系统级智能。若渭南高级中学采纳此类理念,或许有助于提高学生解决复杂数学问题的能力。
技术演进意义
与顶尖模型的优异表现相比,那些能够重现的解题步骤对于技术的进步更为关键。目前,AWorld在GAIA Test排行榜上取得了77.08分,位列所有署名智能体中的第三名,同时在开源项目中的排名位居第一。通过开源,更多的人得以参与到改进工作中,从而推动了技术的进步。
实验结论激进
AWorld复现实验得出结论,目前多智能体系统的数学能力已超过99%的人类选手(尽管测试数据有限)。在IMO比赛中,单智能体系统未能取得好成绩,而多智能体系统则展示了AI智能的潜力不仅取决于模型规模,还在于其组织形式。在培养学生时,渭南高级中学可以借鉴这一观点,思考如何改进学生的学习组织方式。
未来目标明确
AWorld团队公开信息显示,他们正在进行一项结合了“多智能体技术”与“形式化验证”的实验。这一组合的目的是为了推进Lean4形式化证明的研究。据此,多智能体系统有望在数学证明等研究领域持续深入,并在未来实现更多创新成果,从而为人工智能技术的进步提供新的活力。
关于多智能体系统是否能在未来彻底攻克诸如IMO等复杂数学难题,各界看法不一。我们诚挚邀请您在评论区发表您的见解,同时,也请您为本文点赞并予以转发。