谷歌Gemini 2.5 Pro登顶编程排行榜
谷歌最新发布的Gemini 2.5 Pro在编程排行榜上拔得头筹,在著名的WebDev Arena中击败了Claude。WebDev Arena是一个类似于LLM Arena的非宗派排名网站,但专门用于衡量AI模型在编程方面的能力。这一成就正值谷歌努力将其旗舰AI模型定位为编程和推理任务领域的领导者。
多领域表现优异
今年早些时候发布的Gemini 2.5 Pro在多个类别中排名第一,包括编程、风格控制和创意写作。该模型拥有巨大的上下文窗口——目前为100万个token,很快将扩展到200万个——使其能够处理大型代码库和复杂项目,这些项目甚至会让最接近的竞争对手望而却步。相比之下,ChatGPT和Claude 3.7 Sonnet等强大模型最多只能处理128K个token。
AI智商测试表现突出
Gemini在所有AI模型中拥有最高的“智商”。TrackingAI通过正式的MENSA测试对其进行了评估,使用挪威门萨的言语化问题创建了一种标准化方法来比较AI模型。在这些测试中,Gemini 2.5 Pro的得分高于竞争对手,即使使用的是训练数据中未公开的定制问题。在离线测试中,Gemini的智商得分为115,属于“聪明”范畴,而人类的平均智商得分在85到114之间。但需要注意的是,AI的智商概念需要进一步解释。AI系统并不像人类那样拥有智商,因此最好将这个基准视为推理基准性能的隐喻。
专业测试成绩亮眼
在专门为AI设计的基准测试中,Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7%,在GPQA科学评估中得分为84.0%。在Humanity's Last Exam(HLE)这一为避免测试饱和问题而创建的更新、更难的基准测试中,Gemini 2.5得分为18.8%,击败了OpenAI的o3 mini(14%)和Claude 3.7 Sonnet(8.9%),在性能提升方面表现显著。
开发者青睐的多功能模型
新版本的Gemini 2.5 Pro现已免费向所有Gemini用户开放(有速率限制)。谷歌此前将此次发布描述为“2.5 Pro的实验版本”,是其“思维模型”系列的一部分,旨在通过推理生成响应,而不仅仅是生成文本。尽管Gemini并未在所有基准测试中获胜,但其多功能性已引起开发者的关注。该模型可以从单一提示中创建复杂的应用程序,构建交互式Web应用程序、无尽跑酷游戏和视觉模拟,而无需详细的指令。
实际应用测试
我们测试了该模型,要求它修复一段损坏的HTML5代码。它生成了近1000行代码,在质量和完整指令理解方面击败了之前的领先者Claude 3.7 Sonnet。对于工作开发者来说,Gemini 2.5 Pro的输入成本为每百万token 2.50美元,输出成本为每百万token 15.00美元,使其成为一些竞争对手的更便宜替代品,同时仍提供令人印象深刻的功能。
企业级应用潜力
该AI模型在其高级计划中最多可处理30,000行代码,使其适用于企业级项目。其多模态能力——处理文本、代码、音频、图像和视频——增加了其他专注于编程的模型无法比拟的灵活性。