8月2日報道,昨夜,谷歌推出其迄今最強推理模型Gemini 2.5 Deep Think。
這是最近在今年國際數學奧林匹克(IMO)上“拿金牌”的模型的變體。近期高級版Gemini Deep Think完美解答了IMO 6道題目中的5道,總分35分(滿分42分),達到金牌水平。
該模型需要幾個小時才能推理出復雜的數學問題。新發布的版本在日常使用中速度更快、更易用,根據內部評估,在2025年IMO基準測試中仍達到銅牌水平。
谷歌在今年5月的I/O開發者大會上首次預覽了Gemini 2.5 Deep Think。新版本進行了“重大改進”。在具有挑戰性的編程、科學、知識、推理基準測試中,與OpenAI o3、Grok 4等其他不使用工具的模型相比,Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity’s Last Exam均取得最佳性能。
Gemini app中的Deep Think模型,使用思考技巧來提供更詳細、更有創意和更周到的回答,甚至可以幫助數學家來測試數學猜想,還能提高Web開發任務的美觀性。
Deep Think支持文本、圖像、音頻、視頻等輸入和1M tokens上下文窗口,輸出長度為192K tokens。
其工作原理是利用谷歌的并行思維技術,能同時生成多個想法,并同時進行思考,甚至隨著時間的推移不斷修改或整合不同的想法,最終得出最佳答案。
此外,通過延長推理時間或“思考時間”,谷歌給了Gemini更多的時間來探索不同的假設,并為復雜問題找到創造性的解決方案。
谷歌還開發了新穎的強化學習技術,鼓勵模型利用這些擴展的推理路徑,從而使Deep Think隨時間推移成為更好、更直觀的問題解決者。
Deep Think可以幫助人們解決需要創造力、戰略規劃和逐步改進的問題,例如:
迭代開發和設計:在需要逐塊構建復雜事物的任務上的表現出色,比如可以提高網絡開發任務的美學和功能。
科學和數學發現:可推理出高度復雜的問題,通過復雜的科學文獻幫助制定和探索數學猜想或推理,可能加速發現之路。
算法開發和代碼:在棘手的編碼問題上特別出色,其中問題制定和仔細考慮權衡和時間復雜性是最重要的。
目前僅有最高級別的Google AI Ultra訂閱者可選用“Deep Think”,每月訂閱費為249.99美元(約合人民幣1803元)。
Deep Think自動與代碼執行和谷歌搜索等工具配合使用,并能產生更長的響應。
同時,達到IMO金牌水平的Deep Think模型將進一步測試,并向一小部分數學家和學者分享,用于輔助研究。谷歌計劃利用這些反饋來完善該模型的未來版本。
谷歌還正在努力在未來幾周內通過Gemini API向一組受信任的測試人員發布帶和不帶工具的Deep Think,以更好地了解其對開發者和企業用例的可用性。