自选
我的自选
查看全部
市值 价格 24h%

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Gemini 3深夜来袭:力压GPT5.1,大模型谷歌时代来了

2025-11-19 13:18:35
收藏

AI圈的神经再次被彻底拉满——Gemini 3还没发布,推特已经先炸了。从9月开始,整个行业都盯着谷歌能否按“三个月一更”的节奏推出下一代模型,如今只因谷歌开发者关系负责人发出了一条只有「Gemini」的神秘推文,几个月的期待瞬间引爆社交媒体。相关话题迅速登上热搜,AI开发者、投资人、模型玩家纷纷涌入讨论,仿佛下一秒Gemini 3就要降临。这个场景不仅反映出市场对新一代大模型的渴望,也让人看到:AI的竞争战火,远比我们想象得更激烈。

有趣的是,临近发布节点,推特竟「应景」地崩了几次。尽管「幕后黑手」是Cloudflare,但这崩溃的时机简直精准得让人怀疑有人背后搞鬼(小声蛐蛐:毕竟推特是各家模型的宣传主阵地)。

不知道今早刚发了Grok 4.1的马斯克此时作何感想,反正网友的梗图已经铺天盖地了。

就在刚刚,Gemini 3终于正式登场,让我们看看在万众瞩目下登场的它到底有多强。

最智能模型

事实证明,Google没有让等待的人失望,Gemini 3正式发布,再一次定义了SOTA,奥特曼和马斯克也发来贺电。

Google将其定义为「通往AGI的重要一步」,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。

Gemini 3不仅在基础推理能力上刷新了SOTA标准,更通过推出全新的Google Antigravity平台和Deep Think模式,试图重塑开发者生态与AI辅助体验。

全面霸榜的推理怪兽

Gemini 3 Pro被官方称为「最先进的推理模型」,在几乎所有主流AI基准测试中均显著超越了前代Gemini 2.5 Pro,并且全面压制了Claude Sonnet 4.5和GPT-5.1等主要竞品。

Gemini 3 Pro以1501 Elo的突破性高分登顶LMArena Leaderboard,在Humanity’s Last Exam(在不使用任何工具的情况下达到37.5%)和GPQA Diamond(91.9%)上获得最高分,展示了博士级的推理能力。它还在数学方面为前沿模型树立了新标准,在MathArena Apex上达到了23.4%的最新SOTA水平。

除了文本与逻辑,Gemini 3 Pro还重新定义了多模态推理的上限。它在MMMU-Pro和Video-MMMU上分别斩获了81%和87.6%的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都游刃有余。

更值得一提的是,它在SimpleQA Verified上取得了72.1%的成绩,显示出在事实准确性上的巨大进步——它不仅强,而且可靠。

拒绝奉承的思维伙伴

Gemini 3 Pro的进化不仅在于跑分,更在于交互的质感。它摒弃了以往AI常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。

它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。

Gemini 3 Deep Think

Gemini 3 Deep Think模式进一步拓展了智能的边界,带来了Gemini 3在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。

在测试中,Gemini 3 Deep Think在Humanity's Last Exam(不使用工具的情况下得分41.0%)和GPQA Diamond(得分93.8%)上的表现均优于Gemini 3 Pro已相当出色的成绩。此外,它在ARC-AGI-2(代码执行,已通过ARC Prize验证)上也取得了前所未有的45.1%的得分,展现了其解决全新挑战的能力。

Gemini 3 Deep Think模式在一些最具挑战性的AI基准测试中表现出色。

学习、构建与规划

学习任何事情

Gemini从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。

例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。

或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。

为了帮助你更好地理解网络上的信息,搜索中的AI模式现在使用Gemini 3来实现新的生成式UI体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。

开发任何东西

在2.5 Pro成功的基础上,Gemini 3兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的Web用户界面。

Gemini 3是谷歌迄今为止构建的最佳Vibe编码和Agent编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在WebDev Arena排行榜上名列榜首,获得了令人瞩目的1487 Elo分数。此外,它在Terminal-Bench 2.0测试中也取得了54.2%的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在SWE-bench Verified测试中也大幅超越了2.5 Pro版本(得分为76.2%),该测试用于衡量编码代理的性能。

现在,用户可以使用Google AI Studio、Vertex AI、Gemini CLI以及谷歌全新的智能体开发平台Google Antigravity中的Gemini 3进行构建。它也适用于Cursor、GitHub、JetBrains、Manus、Replit等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古3D太空飞船游戏。

再比如编写更丰富、更具交互性的Web UI和应用程序。

规划任何事

自Gemini 2智能体之后,Gemini显著提升了长周期任务中的规划能力。

Gemini 3的规划能力在Vending-Bench 2测试中进一步得到印证:Gemini 3在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中,Gemini 3 Pro始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。

Gemini 3 Pro展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。

Gemini Agent还可以帮助整理Gmail收件箱。

Gemini 3现已全面开放。即日起,普通用户和订阅用户分别可通过Gemini App及搜索AI模式使用新模型;开发者与企业客户也能通过AI Studio、Vertex AI等渠道接入。至于备受期待的「深度思考模式」,预计将在未来几周内面向Google AI Ultra订阅用户独家上线。

另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google使用TPU从头开始训练这个模型,作为一个MoE,具有1M输入和64k token输出,MoE意味着他们可以负担得起使其变得便宜。

定价方面,Gemini 3.0 Pro引入了基于上下文长度的分级定价机制:200k tokens以下的任务,输入/输出价格为$2.00/$12.00(每百万token);超过200k tokens则分别为$4.00和$18.00。

全新的「智能体优先」开发体验

Google Antigravity是Google全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用Gemini 3先进的推理、工具使用和智能体编程能力,Google Antigravity将AI辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然Google Antigravity的核心是熟悉的AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。

除了Gemini 3 Pro,Google Antigravity还紧密结合了Google最新的用于浏览器控制的Gemini 2.5 Computer Use模型,以及其顶级的图像编辑模型Nano Banana(Gemini 2.5 Image)。

一手体验

既然Gemini 3 Pro预览版上线了AI Studio平台,我们也来上手体验了一把。

Prompt:SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail,shows details that no one expected go full creative and full beauty in one code block.

Prompt:Create a visually stunning Space Invaders game.

鹈鹕骑自行车曾难倒一众大模型,这次我们也让Gemini 3试了下。Prompt:An animated SVG of a pelican riding a bicycle.

相比之前版本,Gemini 3已有较大进步,不过仍有bug,比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词:Create a single,complete,self-contained animated SVG code(no external files or images)of a cute pelican riding a bicycle from a side view.这次Gemini 3生成的自行车似乎没有脚蹬。

写在最后

在X博主Chubby发起的「到2026年底,哪家公司拥有最好的LLM?」投票中,Google Gemini遥遥领先。

这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai在官方博客中回顾了Gemini过去两年的进展:AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,此外更有超过70%的云客户以及1300万开发者正在使用其生成式模型。

回望过去两年,从Bard(Gemini前身)发布时的仓促应战与股价暴跌,到痛定思痛合并Google DeepMind、召回创始人、斩获诺贝尔奖,Google完成了一场教科书般的「大象转身」。

那个曾经定义了Transformer、如今「All in Gemini」的巨人,已经做好了全面反击的准备。

至于它到底能不能终结「最好的LLM」之争?别急,让子弹(和服务器)再飞一会儿。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
最新文章