• 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Claude Opus 4.8最新基准测试表现超越GPT-5.5

2026-05-29 02:04:20
收藏

主要亮点

克劳德 Opus 4.8 相较于前代 Opus 4.7 版本取得了显著进步,其编码能力和推理能力均得到增强。

基准测试显示,该模型在多项评估中超越了 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 的表现。

用户现在可以通过创新的处理强度控制功能,根据特定任务需求自定义处理强度。

最新模型在检测以往未被发现的编码错误方面表现出四倍的提升。

未宣布价格调整,标准层级维持每百万输入 token 5美元、每百万输出 token 25美元的价格。

目录

可自定义的处理强度

增强的代码验证与商业功能

竞逐公开市场上市

介绍克劳德 Opus 4.8

克劳德 Opus 4.8 代表着该公司迄今为止最先进的 AI 系统,现已全球开放。此版本在 Opus 4.7 的基础上,在代码生成、逻辑推理和真实性方面进行了显著增强。

克劳德 Opus 4.8 具备更敏锐的判断力、更诚实地报告自身进展,并且能够比其前代产品更长时间地独立工作。

即日起以相同价格提供。

Anthropic 进行的基准评估表明,Opus 4.8 在多个测试类别中相比 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 提供了更优异的结果。该模型尤其在自主编码任务、金融数据分析和计算机交互场景中表现出色。

自主 AI 指的是能够在最少人工监督下执行复杂操作的技术。随着各组织将 AI 驱动的智能体集成到其工作流程中,这种能力正变得愈发重要。

引入可自定义的处理强度

最引人注目的功能之一是引入了处理强度调整控制,现可通过克劳德网站和克劳德协作平台使用。此功能使用户能够调控分配给特定请求的计算资源。

处理简单查询时,用户可以降低处理强度以节省时间和计算单元。反之,对于具有挑战性的项目,则可分配更强的处理能力以进行更深入的分析。

计算单元是 AI 服务商用来量化输入和输出的计量标准。每次与 AI 系统的交互都会消耗这些单元,无论其复杂程度如何——从基础问题到复杂的编程请求皆然。

降低处理强度意味着减少单元消耗,可能为使用量大的组织降低开支。

增强的代码验证与商业功能

在可靠性改进方面,Opus 4.8 相比 Opus 4.7 在识别编码错误方面的能力提升了 400%。这对于在实时生产系统中部署该模型的软件开发人员来说是一项重大的升级。

公司同时发布了克劳德代码中动态工作流的实验版本。此功能能够协调数百个并行子进程来管理大规模的代码迁移项目。

该系统也经过改进,具有更高的透明度。据 Anthropic 称,该模型会承认其分析的局限性,并避免提供未经证实的信息。

快速模式操作变得更加经济。运营成本降低了 66%,同时面向终端用户保持每百万输入 token 10美元、每百万输出 token 50美元的公布费率。

标准层级定价保持不变,仍为每百万输入 token 5美元、每百万输出 token 25美元。

竞逐公开市场上市

Opus 4.8 的推出正值有报道称 Anthropic 即将完成一轮超过 300 亿美元的 Pre-IPO 融资。这笔投资可能使公司估值超过 9000 亿美元。

尽管 Anthropic 尚未正式宣布上市计划,但行业消息人士暗示其可能在 2026 年进行首次公开募股。这一时间线与 OpenAI 和 SpaceX 正在进行的类似筹备工作相吻合,这两家公司也都在考虑上市。

由前 OpenAI 团队成员创立,Anthropic 已成为人工智能领域的主要参与者。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻
自选
我的自选
查看全部
市值 价格 24h%