Claude Sonnet 4.5 上手: 一个未来 Agent 的雏形出现了

作者｜董道力

9月30日，Anthropic发布了新的编程模型ClaudeSonnet4.5，在新闻稿的第一句就写到：ClaudeSonnet4.5isthebestcodingmodelintheworld.

换做别的公司我们可能会吐槽“又疯一个”，但Anthropic在AI编程上的能力大家有目共睹，无论是大家抢着用的ClaudeSonnet4还是引领编程Agent的ClaudeCode，换句话说AI编程的上限全靠Anthropic来突破。

那ClaudeSonnet4.5到底更新了什么东西，值不值得bestcodingmodel的称号？

提高跑分不是最大的变化

在最新的基准测试中，ClaudeSonnet4.5展现了全面领先的实力。

具体来看，ClaudeSonnet4.5在OSWorld电脑使用测试中拿下61.4%，成为最会“用电脑”的AI。在工具调用上，ClaudeSonnet4.5的表现尤为突出，它能真正调动系统与工具，智能体能力更进一步。它在金融、法律、医学和STEM等专业领域的知识与推理上，远超此前的Opus4.1。

然而，相比前一代，它最大的变化不在于跑分，而是功能上的全面升级。

在开发体验上，ClaudeCode增加了检查点功能，支持随时保存和回滚，降低出错成本；同时推出原生VSCode插件和全新终端界面，把模型能力直接嵌入工程师最常用的环境。在长任务处理上，它引入上下文编辑和记忆工具，能保持长时间连贯思路，据称可稳定执行超过30小时的复杂任务。

在办公应用上，它通过Chrome插件完成网页导航、表格填写和文档处理，并在Claude应用中直接运行代码、生成表格、幻灯片和文档，让对话真正成为工作的入口。而对开发者来说，最重磅的更新是ClaudeAgentSDK，Anthropic首次开放自家底层基础设施，让外部开发者也能基于Claude构建属于自己的Agent。

实测ClaudeSonnet4.5编程能力，新特征想要AIIDE的命？

Devin团队在测试ClaudeSonnet4.5时，概括了三个明显变化：一是更快更稳，运行速度提升约两倍，“初级开发者评估”得分提高12%。二是出现了外化记忆的倾向，模型会主动生成总结或笔记文件来维持长任务的连贯性；三是更积极地自我验证，会写小脚本或抓取页面HTML来测试和修正方案。

不过，冷静来看，这些特征其实在许多AIIDE中早已有迹可循：Cursor、Windsurf、ReplitGhostwriter早就能帮用户生成文档、维护项目记忆，甚至在改动后自动运行测试。

差别在于，IDE的功能是工程师预设的“外挂模块”，而在ClaudeSonnet4.5身上，这些行为更像是模型自发形成的工作习惯，它会主动写SUMMARY.md给自己留后路，也会在必要时自动生成小脚本来验证结果。换句话说，区别不在“有没有”，而在于是外挂功能，还是模型的内驱习惯。

从长远来看，这种差别可能会决定未来开发体验的走向：是继续依赖IDE提供的功能拼装，还是让大模型Agent自己演化出工作风格。如果后者不断成熟，Cursor等AIIDE的优势，或许真的会逐渐被大模型侵蚀。

我们让ClaudeSonnet4.5写个小游戏项目。

最直观的感受就是快，生成网页游戏时间不超过1分钟。其次，Claude不仅能听懂非常粗糙的指令，在第一轮对话中就生成一个可以直接运行的游戏原型。后续的修改也非常顺畅，只需一句简单的提示，比如调整速度、赛道宽度或添加箭头标识，它都能迅速完成。而同样的提示词放在Codex中，初始阶段并没有直接生成完整的游戏框架。

首先是第一轮对话，Claude输出了一个基础版本：玩家可以操控赛车前进、后退和转向，但车辆很容易冲出画面。

经过几轮微调如控制转弯幅度等，我进一步要求Claude参考F1赛车的风格，让赛道更复杂。这是一个比较大幅度的修改，而Claude不仅增加了弯道，还在指示牌上进行了美化，并且之前修改的内容都没有崩。

最后，为了提升可玩性，我提出希望在赛道上增加箭头指示方向。Claude起初生成的箭头方向有些混乱，但只经过一轮对话，它就完成了修正，使箭头方向与跑道完美贴合。

ClaudeSonnet4.5项目预览：https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-baf3825d97d7

从这次小游戏实验可以看出，ClaudeSonnet4.5的强大并不只体现在基准测试的分数上，而在于它能把自然语言转换成可运行项目的过程变得前所未有的流畅。

在以往，提示词生成游戏代码通常意味着大量返工：模型给出一个半成品，用户要反复调试，甚至需要具备相当的编程基础。但在ClaudeSonnet4.5这里，非常流畅。

然而，上面的实测案例只是一个小玩具，真正的生产力还是要看具体的生产环境。

在Reddit上，一位开发者用同样的复杂前端Bug并排测试ClaudeSonnet4.5与Codex，结果显示：Codex更善于定位根因，而ClaudeSonnet4.5经常跑偏，甚至修复“已经好的部分”。

评论区观点分化，有人认同ClaudeSonnet4.5在复杂调试里容易迷路，并没有宣传的那么好。也有人强调它在前端问题上比Codex更快。还有人认为Codex更深度，但代价是更慢、更贵。

唯一的共识是：把Claude当高产起草者，把Codex当审校者，再配合日志和可观测性工具，才是当前更稳妥的用法。

Claude是如何控制电脑的？

除了编程能力，ClaudeSonnet4.5在OSWorld电脑使用测试中拿下61.4%，这一点对于普通用户来说，比编程能力更加有吸引力。

打开桌面端Claude（Mac），可以看到它有非常多的功能，控制谷歌浏览器、读取记事本、操作Mac、Figma、PDF、Spotify等。

我们先用Claude来操控一下浏览器。

ClaudeSonnet4.5在控制Chrome时，并非直接“跳到答案”，而是像用户一样逐步操作、并调用工具完成链路：先用OpenURL打开Google首页，再用ExecuteJavaScript在搜索框输入“chinadaily”并进入官网；随后调用GetPageContent提取页面内容，若遇到报错则切换至官网LatestNews作为容错路径，确保数据可得；最后通过内部整理流程做时间过滤（仅保留9月30日）与版块分类（政治/经济/社会/国际）。

在详情页中可以看到，ClaudeSonnet4.5为Chrome提供了一整套工具：既能打开或关闭网页，也能刷新、后退、前进；还可以执行JavaScript代码来完成点击、滑动等操作，并直接提取网页内容。

我们再来实践一个与电脑文件交互的案例。

在配置好权限和路径后，和控制Chrome一样，ClaudeSonnet4.5会调用拥有的文件处理工具，像人类一样思考一步一步完成上述的任务。

Claude先从桌面路径/Users/ddlpc/Desktop开始，搜索所有名字里包含“Claude”的文件夹，一共找到四个。随后逐一检查这些文件夹的内容。

从详情页中可以看到，该工具既能读取单个或多个文件内容，也能新建、编辑和写入文件，还可以创建目录、列出目录、查看目录树结构，甚至移动文件、搜索文件、获取文件信息，并管理可访问的目录范围。

而这样的工具，Claude还有很多。

ClaudeSonnet4.5的出现，不只是跑分上的胜利。它正在模糊一条界限：大模型到底是一个生成器，还是一个能动的智能体？检查点、长程记忆、AgentSDK、对Chrome的直接操控，这些都让它越来越像一个能自己处理任务的数字同事。

当然，它依旧不完美：调试会迷路，执行会跑偏。但这恰恰说明，它不是一把无所不能的工具，而是一个需要协作、需要工程化约束的伙伴。而且过几个月，Anthropic会不会偷偷砍ClaudeSonnet4.5一刀，强行降智，谁也不知道。

但有一点可以肯定，这可能是我们最后一次用这些曾经难以想象但今天正变得“小儿科”的测试案例来评测Claude以及紧追它其后的各种模型。这就是今天AICoding从模型到产品的狂奔速度，接下来只会更疯狂。

点个“爱心”，再走吧