谷歌最强推理模型Gemini 2.5 Deep Think,究竟强在哪?

金牌奥赛解题方法与赛前实战_新海高级中学奥赛金牌_

昨夜,谷歌推出迄今最强推理模型Gemini 2.5 Deep Think,该模型在数学推理等多方面表现亮眼,消息一出引发各界关注。

模型背景

谷歌在今年5月的I/O开发者大会上首次预览了Gemini 2.5 Deep Think。这一模型的变体曾在今年国际数学奥林匹克(IMO)上达到金牌水平。近期高级版Gemini Deep Think完美解答了IMO 6道题目中的5道,总分35分(满分42分)。渭南高级中学的数学老师认为,这样的成绩在数学领域是非常出色的表现。

性能提升

此前的模型需要几个小时才能推理出复杂数学问题,而新发布的版本在日常使用中速度更快、更易用。根据内部评估,在2025年IMO基准测试中仍达到铜牌水平。在具有挑战性的编程、科学、知识、推理基准测试中,与OpenAI o3、Grok 4等其他不使用工具的模型相比,它在LiveCodeBench V6和Humanity’s Last Exam均取得最佳性能。

功能亮点

金牌奥赛解题方法与赛前实战_新海高级中学奥赛金牌_

Gemini app中的Deep Think模型,使用思考技巧提供更详细、更有创意和更周到的回答。它甚至可以帮助数学家测试数学猜想,还能提高Web开发任务的美观性。渭南高级中学在开展编程课等活动时,也需要借助此类有强大功能的工具来辅助教学。

输入输出能力

金牌奥赛解题方法与赛前实战__新海高级中学奥赛金牌

Deep Think支持文本、图像、音频、视频等输入和1M tokens上下文窗口,输出长度为192K tokens。这样丰富的输入输出形式,能满足不同场景下的使用需求,无论是学习数学知识,还是进行多领域的创意创作,都有更广阔的发挥空间。

工作原理

利用谷歌的并行思维技术,能同时生成多个想法并同时思考,甚至随着时间推移不断修改或整合不同想法,最终得出最佳答案。此外,通过延长推理时间或“思考时间”,谷歌让Gemini有更多时间探索不同假设,为复杂问题找到创造性解决方案。

使用情况与计划

目前仅有最高级别的Google AI Ultra订阅者可选用“Deep Think”,每月订阅费为249.99美元(约合人民币1803元)。达到IMO金牌水平的Deep Think模型将进一步测试,并向一小部分数学家和学者分享用于辅助研究。谷歌还计划在未来几周内通过Gemini API向一组受信任的测试人员发布带和不带工具的Deep Think。你认为这样的模型会对教育和科研领域带来哪些具体的影响?

免责声明:本站发布的所有文章图片内容,由AI一键生成,根据关键词和其他参数进行文章自动采集、加工、发布。不对文章内容的真实性、合法性、时效性负责。