谷歌Gemini 2.5 Pro在AI"智商"对决中登顶编程与门萨测试排行榜_新闻

市值	价格	过去7天
BTC $2.05万亿	$103000.01	6.03%
ETH $2660.41亿	$2179.83	20.97%
XRP $1353.36亿	$2.2981	7.84%
BNB $881.66亿	$623.34	3.81%
SOL $838.94亿	$160.74	9.22%
DOGE $290.31亿	$0.19286	12.32%
ADA $268.67亿	$0.7554	13.37%
TRX $244.00亿	$0.2568	3.55%
SUI $136.06亿	$4.0003	19.96%
LINK $104.02亿	$15.74	14.89%
WBTC $101.23亿	$102986.08	6.07%
AVAX $92.16亿	$21.9	12.77%
XLM $89.74亿	$0.2887	11.38%
SHIB $84.88亿	$0.0000142	11.72%
BCH $84.18亿	$420.3	16.17%
HBAR $82.52亿	$0.19409	10.76%
LEO $81.76亿	$8.891	0.87%
TON $80.29亿	$3.194	6.22%
LTC $71.54亿	$93.74	5.67%
DOT $70.06亿	$4.421	12.58%

市值

价格

过去7天

BTC

$2.05万亿

$103000.01

6.03%

ETH

$2660.41亿

$2179.83

20.97%

XRP

$1353.36亿

$2.2981

7.84%

BNB

$881.66亿

$623.34

3.81%

SOL

$838.94亿

$160.74

9.22%

DOGE

$290.31亿

$0.19286

12.32%

ADA

$268.67亿

$0.7554

13.37%

TRX

$244.00亿

$0.2568

3.55%

SUI

$136.06亿

$4.0003

19.96%

LINK

$104.02亿

$15.74

14.89%

WBTC

$101.23亿

$102986.08

6.07%

AVAX

$92.16亿

$21.9

12.77%

XLM

$89.74亿

$0.2887

11.38%

SHIB

$84.88亿

$0.0000142

11.72%

BCH

$84.18亿

$420.3

16.17%

HBAR

$82.52亿

$0.19409

10.76%

LEO

$81.76亿

$8.891

0.87%

TON

$80.29亿

$3.194

6.22%

LTC

$71.54亿

$93.74

5.67%

DOT

$70.06亿

$4.421

12.58%

谷歌Gemini 2.5 Pro在AI"智商"对决中登顶编程与门萨测试排行榜

2025-05-09 01:22:28

谷歌Gemini 2.5 Pro登顶编程排行榜

谷歌最新发布的Gemini 2.5 Pro在编程排行榜上拔得头筹，在著名的WebDev Arena中击败了Claude。WebDev Arena是一个类似于LLM Arena的非宗派排名网站，但专门用于衡量AI模型在编程方面的能力。这一成就正值谷歌努力将其旗舰AI模型定位为编程和推理任务领域的领导者。

多领域表现优异

今年早些时候发布的Gemini 2.5 Pro在多个类别中排名第一，包括编程、风格控制和创意写作。该模型拥有巨大的上下文窗口——目前为100万个token，很快将扩展到200万个——使其能够处理大型代码库和复杂项目，这些项目甚至会让最接近的竞争对手望而却步。相比之下，ChatGPT和Claude 3.7 Sonnet等强大模型最多只能处理128K个token。

AI智商测试表现突出

Gemini在所有AI模型中拥有最高的“智商”。TrackingAI通过正式的MENSA测试对其进行了评估，使用挪威门萨的言语化问题创建了一种标准化方法来比较AI模型。在这些测试中，Gemini 2.5 Pro的得分高于竞争对手，即使使用的是训练数据中未公开的定制问题。在离线测试中，Gemini的智商得分为115，属于“聪明”范畴，而人类的平均智商得分在85到114之间。但需要注意的是，AI的智商概念需要进一步解释。AI系统并不像人类那样拥有智商，因此最好将这个基准视为推理基准性能的隐喻。

专业测试成绩亮眼

在专门为AI设计的基准测试中，Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7%，在GPQA科学评估中得分为84.0%。在Humanity's Last Exam（HLE）这一为避免测试饱和问题而创建的更新、更难的基准测试中，Gemini 2.5得分为18.8%，击败了OpenAI的o3 mini（14%）和Claude 3.7 Sonnet（8.9%），在性能提升方面表现显著。

开发者青睐的多功能模型

新版本的Gemini 2.5 Pro现已免费向所有Gemini用户开放（有速率限制）。谷歌此前将此次发布描述为“2.5 Pro的实验版本”，是其“思维模型”系列的一部分，旨在通过推理生成响应，而不仅仅是生成文本。尽管Gemini并未在所有基准测试中获胜，但其多功能性已引起开发者的关注。该模型可以从单一提示中创建复杂的应用程序，构建交互式Web应用程序、无尽跑酷游戏和视觉模拟，而无需详细的指令。

实际应用测试

我们测试了该模型，要求它修复一段损坏的HTML5代码。它生成了近1000行代码，在质量和完整指令理解方面击败了之前的领先者Claude 3.7 Sonnet。对于工作开发者来说，Gemini 2.5 Pro的输入成本为每百万token 2.50美元，输出成本为每百万token 15.00美元，使其成为一些竞争对手的更便宜替代品，同时仍提供令人印象深刻的功能。

企业级应用潜力

该AI模型在其高级计划中最多可处理30,000行代码，使其适用于企业级项目。其多模态能力——处理文本、代码、音频、图像和视频——增加了其他专注于编程的模型无法比拟的灵活性。

展开阅读全文

我的自选