首页 > 新闻中心 > 环球报道

能连续干活超30小时！Claude发起AI编程新一轮竞赛

作者: 第一财经　日期:2025-09-30 17:19　阅读:0 　来源:第一财经　

分享到：

邮箱：news@skykiwi.com

【天维网综合报道】2025年最热赛道AI编程又卷起来了。北京时间9月30日，Anthropic 正式发布Claude Sonnet 4.5，官方称其为“世界上最好的编程模型”，同时在智能体构建、计算机使用、推理和数学能力上有显著突破。从各方面评测来看，Claude维持了自身在编程领域的王座地位。

在不少业内人士看来，Anthropic 此次更新的时间点颇具深意——一周后，OpenAI 将举办年度开发者大会；而前不久，OpenAI 刚刚发布了强化智能体编程能力的 GPT-5-Codex，宣称能独立处理长达7小时的大型复杂任务。

而这一次，Anthropic 直接将标准拉高：Sonnet 4.5 能够在复杂、多步骤任务中保持超过30小时的持续注意力。

这一能力也得到了业内的认证，iGent AI的CEO表示，Sonnet 4.5“重新设定了行业期望”，它可以自主处理30多个小时的代码，使工程师在极短的时间内处理数月的复杂架构工作，同时保持大量代码库的一致性。

从官方的评测来看，Sonnet 4.5在编程、数学等各项评测上超越了GPT-5和谷歌的Gemini2.5 pro。

在考察真实编程水平的 SWE-bench Verified 测试里，Claude Sonnet 4.5登顶业界第一，比GPT-5-Codex高出7.5个百分点。

在面向计算机环境的开放式任务基准测试OSWorld上，Sonnet 4.5目前以61.4%的得票率领先，就在4个月前，Sonnet 4还以42.2%的得票率领先。

此外，针对专业领域，Anthropic表示，Sonnet 4.5在金融、法律、医学和STEM领域的专家发现，与包括Opus 4.1在内的旧模型相比，这一模型显示出更好的领域特定知识和推理能力。

伴随模型升级，官方还针对产品体验进行了一些升级，包括“检查点”功能，能随时保存进度并一键回退，终端界面翻新，代码执行和文件创建现在直接整合到对话里等等。在官方演示中，Claude可以直接在浏览器中工作，并且导航站点，填写电子表格和完成任务。

一位AI行业的博主表示，“如果说之前的Claude是给程序员的，那么现在的Claude是给白领的，可以直接编辑office三件套，完成邮件。”虽然现在还达不到生产级，但代码Agent为软件工程做的事情，很快就会扩展到所有知识工作领域，这只是开始。

本次更新中，一个备受关注的临时预览功能是“Imagine with Claude”。在这个功能里，Claude 会实时生成软件，没有预设的功能，也没有提前写好的代码，用户看到的一切都是 Claude实时互动、响应需求当场创建出来的。这或许是大模型语言操作系统的未来，目前还不成熟，这一功能仅在接下来五天内只对 Max 订阅用户开放。

模型更新的同时，众多AI编程领域的创业者都出来为Claude“背书”。 Cursor CEO Michael Truell表示看到了Sonnet 4.5 的优秀编码性能，并在长期任务方面取得了显著提升。这进一步印证了众多使用 Cursor 的开发者选择 Claude 来解决最复杂问题的原因。Cognition联创兼CEO Scott Wu也表示， Sonnet 4.5让Devin的规划能力和端到端评估成绩大幅度提升。

在价格方面， Sonnet 4.5提质不加价，与Sonnet 4保持一致，为3美元/百万输入tokens，15美元/百万输出tokens。但与 Anthropic 自家的上一代旗舰模型 Opus 4.1（输入 15 美元，输出 75 美元）相比，这一成本降低了5倍之多，开发者现在可以用更低的成本，获得一个在多任务上超越旗舰的模型。

自2023年3月推出以来，Anthropic 就在编程与数学等领域持续领先，也积累了众多客户。在 Cursor 平台上，Claude 仍是最受欢迎的调用模型。

月初，Anthropic宣布完成 130 亿美元的巨额融资，最新估值来到1830亿美元，一举成为全球估值第四的独角兽。彼时官方透露，2025年8月，其年化收入已超过50亿美元（约合人民币约357亿元），而2025年初这一收入为约10亿美元，八个月内，其商业化能力快速增长。

今年2月，Anthropic推出了自家AI编程工具Claude Code，并在今年5月宣布全面开放，从研究预览转为正式产品。Anthropic提到，Claude Code三个月时间使用量增长超10倍，产生超5亿美元（约合人民币36亿元）的运营收入。

然而，Anthropic 目前也面临挑战。过去两个月，用户普遍反映 Claude 模型质量出现“断崖式下滑”，质疑其为控制成本而降低模型性能，甚至引发开发者大规模退订。Anthropic 后续回应称是因独立 Bug 导致，绝非“故意降智”，但这场信任危机至今尚未完全平息。