• 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Anthropic Claude Opus 4.8发布:编程更强、安防更智,高价依旧

2026-05-29 02:54:19
收藏

模型迭代仅用六周

从Opus 4.7演进至4.8版本,Anthropic仅耗费了六周时间。新版模型在基准测试中展现出更快的速度与更强的智能,并搭载了一系列新功能,但价格保持不变:每百万输入token仍为5美元,每百万输出token为25美元。

此外推出的快速模式能以2.5倍速运行相同模型,每百万token收费10美元输入与50美元输出。Anthropic表示此速率较旧版模型的快速模式降低三倍,这亦侧面反映出此前定价之高。

核心基准测试表现

SWE-bench专业版是衡量模型能力的关键指标,通过检验AI解决真实生产环境中多语言复杂编程问题的通过率进行评估。在该测试中,Opus 4.8达到69.2%,较4.7版的64.3%显著提升;同期OpenAI的GPT-5.5获得58.6%,谷歌Gemini 3.1 Pro则为54.2%。在价格不变的前提下,这一进步尤为可贵。

在涵盖数十个学科的专家级综合测评中,Opus 4.8无工具辅助得分为49.8%,借助工具达到57.9%,领先于所有竞品。针对软件界面操作等实际计算机使用场景的测试中,其以83.4%的得分略超4.7版的82.8%。

唯一落后的是命令行任务性能测试:GPT-5.5以78.2%领先,Opus 4.8虽以74.6%优于旧版的66.1%及Gemini的70.3%,但仍居次席。

可调控的思考强度

Anthropic新增模型思考强度调节功能。“高”为默认模式,可妥善处理多数任务;“特高”模式会为复杂问题分配更多算力;“极限”模式则专为高难度场景设计。而“低”与“中”模式通过减少token分配提升速度,相应会牺牲部分精度。

该功能已面向全计划用户开放。官方表示默认的“高”强度消耗token量与Opus 4.7相近但效果更优,这既体现了技术突破,也传递出明确的产品信号。

需要注意的是,新版分词器会导致单任务消耗更多token。若用户选择功能更强大的Opus而非轻量版模型处理日常任务,使用成本将显著增加。为应对高强度模式产生的额外消耗,平台已同步提升token调用限额。

安全性与可靠性提升

据对齐团队披露,Opus 4.8在支持用户自主性与维护用户利益等社会性指标上创下新高。具体而言,其欺骗率与误用协作率较4.7版大幅下降,表现已接近Anthropic目前最严格的内部模型。

新版对代码漏洞的识别能力亦提升四倍,能更有效标记自身代码缺陷。值得说明的是,该对照模型定位高于Opus系列,目前仅限特定网络安全研究机构通过专项计划试用。

研究显示该高级模型可自主完成长达32步的企业网络攻防推演,此类任务通常需专业团队耗时20小时。由于需强化安全防护机制,该级别模型预计将于近期逐步开放。

动态工作流上线

同期推出的动态工作流功能已进入研究预览阶段。该特性允许模型自主编写协调脚本,在单会话中并行启动多个子智能体,验证输出结果后统一反馈,其运作模式与其他先进系统类似。

该功能面向企业级用户开放,平台明确提示其token消耗量将显著高于标准会话。

市场定价差异显著

Anthropic的定价策略与近期国内模型形成鲜明对比。某国产模型近期将永久性折扣调整至每百万输入token0.435美元,输出token0.87美元,另一厂商模型亦通过开放平台提供相近费率。

相比之下,Opus快速模式单次输出token成本约达国产模型的57倍。企业若大规模采用高阶模型,推理成本可能快速攀升至百万美元量级。

Anthropic以质量与安全性回应价格差距:在专业编程测试中,Opus 4.8表现优于国产模型;在对齐指标上,竞品亦未达到其公布的基准。对于金融、法律等高风险场景,模型的可靠性与安全性至关重要;但对多数用户而言,价格差距仍是不可忽视的因素。

实际开发测试对比

我们通过构建三维僵尸游戏对三大主流模型进行编程测试,均采用高思考强度配置且不进行重试。

GPT-5.5速度最快但未实现僵尸视觉效果与音效;国产模型在第二顺位完成,具备完整的角色系统与游戏机制;Opus 4.8耗时约为前者的三倍,但交付了最佳视觉设计、角色模型与游戏架构,综合输出质量最高。

尽管表现优异,考虑到显著的成本差异,开发者仍需权衡其性价比优势。完整评测报告即将发布,但现有测试已表明:在维持相同定价的前提下,Opus 4.8在此类任务中的编程能力已超越前代及主要竞品,这相当于为原有付费用户提供了免费升级。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻
自选
我的自选
查看全部
市值 价格 24h%