Anthropic发布Claude 4 AI模型家族,开启人工智能新篇章
近日,总部位于旧金山的人工智能领军企业Anthropic终于发布了备受期待的Claude 4 AI模型家族。作为估值超过610亿美元的重要行业参与者,该公司宣称其新模型在编码性能和自主任务执行方面取得了顶尖水平。此次发布的模型取代了Claude家族三个模型中最强大的两个:Opus,一个在理解复杂任务方面表现出色的先进模型;Sonnet,一个适合日常任务的中型模型。而Claude最小且最高效的模型Haiku则未作改动,仍保持v3.5版本。
性能卓越,领先业界
Claude Opus 4在SWE-bench Verified测试中取得了72.5%的分数,在编码基准测试中显著超越了竞争对手。与此同时,OpenAI的GPT-4.1在同一测试中仅获得54.6%的分数,而Google的Gemini 2.5 Pro则达到63.2%。在推理任务方面,Opus 4在GPQA Diamond测试(基本上是一个常识基准)中获得了74.9%的分数,相比之下,GPT-4.1为66.3%。此外,该模型在其他衡量代理任务、数学和多语言查询熟练度的基准测试中也表现出色。
持续自主工作,突破AI能力极限
Anthropic在打磨Opus 4时特别关注开发者的需求,着重提升了模型的持续自主工作能力。乐天集团的AI团队报告称,该模型在一个复杂的开源项目上独立编码近七小时。乐天集团总经理Yusuke Kaji表示,这代表了“AI能力的巨大飞跃,让团队感到震惊”。这种耐力远超以往AI模型的典型任务持续时间限制。
混合系统与扩展分析能力
Claude 4的两个模型均作为混合系统运行,提供即时响应或扩展思考模式,适用于复杂推理。这一概念与OpenAI计划在GPT-5m中将“o”和“GPT”家族合并为一个模型的做法相似。Opus 4支持高达128,000个输出令牌用于扩展分析,并在思考阶段集成工具使用,使其能够暂停推理以搜索网络或访问数据库,然后再继续。这些模型处理的完整上下文窗口接近100万个令牌。
定价与成本节约策略
Anthropic为Claude Opus 4定价为每百万输入令牌15美元,每百万输出令牌75美元。Claude Sonnet 4则每百万输入令牌3美元,每百万输出令牌15美元。公司通过提示缓存和批量处理分别提供高达90%和50%的成本节约,尽管基础费率仍显著高于部分竞争对手。与DeepSeek R1等开源选项相比,这一价格水平仍然较高,后者每百万输出令牌的成本不到3美元。Claude 4 Haiku版本尚未公布,预计价格将更为亲民。
开发者工具与行业竞争
Anthropic的发布恰逢Claude Code全面上市,这是一个代理命令行工具,使开发者能够直接从终端界面委派大量工程任务。该工具可以搜索代码库、编辑文件、编写测试并将更改提交到GitHub,同时在整个过程中保持开发者的监督。GitHub宣布Claude Sonnet 4将成为其新编码代理GitHub Copilot的基础模型。GitHub首席执行官Thomas Dohmke表示,在早期内部评估中,得益于“自适应工具使用、精确的指令遵循和强大的编码本能”,新模型比之前的Sonnet版本提升了高达10%。
企业客户验证与财务表现
多家企业客户提供了具体的使用案例验证。Triple Whale首席执行官AJ Orbach表示,Opus 4“在文本到SQL的使用案例中表现出色,超越了内部基准,成为我们尝试过的最佳模型”。Snowflake的AI负责人Baris Gultekin则强调了该模型在数据分析应用中的“自定义工具指令和高级多跳推理”。Anthropic的财务业绩也支持其高端定位。公司报告称,2025年第一季度的年化收入达到20亿美元,比之前时期增长了一倍多。年度支出超过10万美元的客户增加了八倍,同时公司还获得了25亿美元的五年期信贷额度,以支持持续开发。
安全与隐私保障
与Anthropic以往的发布一样,这些模型保持了公司注重安全的方法,并接受了包括儿童安全组织Thorn在内的外部专家的广泛测试。公司继续执行未经明确许可不使用用户数据进行培训的政策,这在受监管行业中与一些竞争对手形成了鲜明区别。
多模态能力与API集成
两个模型均具备20万个令牌的上下文窗口和多模态能力,可处理文本、图像和代码。它们可通过Claude的Web界面、Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台使用。发布还包括新的API功能,如代码执行工具、MCP连接器和Files API,以增强开发者集成能力。