| 网民熬夜玩儿疯,Claude Opus 4.7来了 | |
| www.wforum.com | 2026-04-17 08:42:22 量子位 | 0条评论 | 查看/发表评论 |
|
|
|
|
|
|
|
|
用Mythos向外界虚晃一枪后,Anthropic猝不及防把Claude Opus 4.7抬了上来。 不少小伙伴都熬夜玩儿疯了! 一骨碌从床上坐起来边冲浪边上手体验,我从Opus 4.7身上总结了一个坏消息和一些好消息。 先说坏消息吧——Opus 4.7身上,怎么看怎么有点故人之姿。 动不动就要“稳稳接住”我。 不少网友也反馈,怎么说是升级,但Opus 4.7越用越像GPT??? 如果是真的,这可不是什么好事情(无奈闭眼.jpg)。 相比坏消息只有一个,好消息那是有一箩筐。 在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面,都比前作更好。但Agentic search等几个单项能力上有所下降。 Anthropic还很臭屁地表示: Opus 4.7是我们家目前最强大的公开可用模型。 不过这不是我们最强大的模型哟~~ 看来最强大的还是密而不发的Mythos。 看看上面的表格,Mythos在那些测试上的整体表现,均优越约10%至15%。 毫无疑问,Mythos Preview是目前Anthropic手里最夯的一张牌,能力拉满,但价格也是Opus 4.7的5倍。 相比之下,Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。 但……所谓智者千虑必有一失。 强大的Opus 4.7还是在昨日的阴沟里面翻了船: Claude Opus 4.7突袭,核心升级四大方向 通览下来,这个公开最强的Opus 4.7,在四个方向上都有突出表现。 高级软件工程领域:值得托付 Opus 4.7最显著的进步在高级软件工程领域。 来看这组数据: SWE-bench Verified测试达到78.2%; SWE-bench Multimodal达到72.7%; Terminal-Bench 2.0拿下68.8%; Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍; GitHub 93项任务编码基准也提升了13%。 Cursor的CEO Michael Truell给出了一个关键评价: 在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。 这种提升体现在三个关键特性上。 第一,严格遵循指令。 Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是字面执行。 这意味着以前你写“如果可能的话,尝试优化这段代码”这种提示词,模型可能会选择性忽略。 现在你说“优化这段代码”,它就一定会执行。 这种变化要求用户重新调整提示词策略,软修饰符如“if possible/ideally/try to”的权重变得更高,硬限制需要更明确。 第二,输出前自我验证。 Opus 4.7会在报告结果前devise ways to verify its own outputs,就像一个资深工程师在提交代码前会自己跑一遍测试。 第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。 Notion的AI Lead Sarah Sachs分享了一个数据: 面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。 它是第一个通过我们隐性需求测试的模型。 视觉能力:分辨率×3,看见更多细节 在视觉能力方面,Opus 4.7也有很不错的进步。 官方数据显示,长边最大支持2576像素(≈3.75百万像素),是Opus 4.6的3倍以上;XBOW视觉敏锐度达到 98.5%(Opus 4.6仅54.5%)。 实际落地场景几乎全覆盖,能直接识别完整Figma设计稿、1080p终端截图(含灰色小字),精准解析复杂技术架构图、财报图表,在计算机使用(Computer Use)场景中,可清晰读取高密度UI元素,视觉处理能力近乎满分。 换句话说,化学结构解析、复杂技术图表识别、像素级精确的UI元素定位,这些过去需要专门模型的任务,现在可以直接用Opus 4.7一个模搞定。 Figma听了立刻股价大跌,怎一个惨字了得。 指令遵循与推理:更可控,更可靠 Opus 4.7在指令遵循上也有长足进步。 它不再试图猜测用户的真实意图,而是严格按照字面执行。 这次升级的核心优势在于严苛的字面执行,如果用户要求 “不要用 TypeScript” ,模型就坚决不用;用户要求 “输出 JSON” ,得到的输出就一定没有任何额外前缀。 这种变化对老用户来说可能需要适应(同时旧提示词易出现意外结果,需重新校准),但对需要精确控制的场景来说是福音。 在推理方面,100万token长上下文场景表现亮眼,BFS任务得分58.6%*(Opus 4.6成绩为41.2%),复杂推理中逻辑连贯性显著提升。 Agent能力增强:为Agent而生的版本 如果说之前的Claude是为对话而生,Opus 4.7则是为Agent而生。 这体现在几个方面。 首先总体来说,Opus 4.7的核心Agent能力有了全方位提升。 多家AI知名企业拿出了实际使用效果相关数据——Notion多步骤工作流成功率提升14%,工具调用错误率降至1/3;Vending-Bench 2长期经营模拟中,最终余额达10937美元(Opus 4.6剩了8018美元),长周期决策更稳健;Genspark场景下,抗死循环、一致性、错误恢复三大生产级特性拉满。 同时具备文件系统记忆,跨多会话可靠记住关键信息,新任务可减少40%重复上下文输入。 Cognition的CEO Scott Wu的描述更形象: Opus 4.7在Devin中将长周期自主性提升到新水平。 它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。 与此同时,Opus 4.7还为开发者提供了许多令人狂喜的Agent相关四件套。 第一,新增xhigh推理等级,作为默认等级介于high与max之间。 这给了开发者更精细的控制权,可以在推理深度和延迟之间找到平衡点,平衡智能与token成本,适配多数编码/Agent任务。 第二,新增自适应思考模式,替代固定预算长思考,模型自主决定思考深度,简单查询快速响应,复杂步骤重点投入。 第三,任务预算(公开beta),开发者可引导token消耗,优化长任务资源分配。 第四,Claude Code新增/ultrareview命令,可创建专属审查会话,标记细微错误与设计问题。 想做一个靠谱的模型:首发防护,记忆增强 Anthropic官方表示,Opus 4.7的网络安全能力不如Mythos Preview。 不过这是他们刻意为之。 这种“自我设限”背后,是Anthropic对AI安全的一贯坚持。 自2021年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的声誉。 在Mythos Preview引发业界对强大AI模型安全风险的热议之后,Opus 4.7被设计成一道缓冲带。 具体来说,Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力,让模型在面对网络安全相关任务时表现出更谨慎的行为模式。 与此同时,官方发布了自动检测和阻止高风险网络安全请求的防护措施,这些safeguards能够自动识别并拦截表明prohibited或high-risk网络安全用途的请求。 而对于确实有合法网络安全需求的专业人士,Anthropic推出了Cyber Verification Program。 安全专业人员如需将Opus 4.7用于漏洞研究、渗透测试、红队演练等合法目的,可以通过正式渠道申请。 官网还在上线播客的最后写到,如果开发者们想从Opus 4.6迁移到4.7版本,有一些事项需要格外注意。 首先是tokenizer的更新。 Opus 4.7使用了新的分词器,虽然改善了文本处理效率,但相同输入可能映射到更多tokens,大约是1.0到1.35倍之间。 这意味着同样的提示词可能会消耗更多token,需要在成本预算中留出余量。 其次是在更高努力级别下会产生更多输出tokens。 Opus 4.7在high和xhigh级别下的思考深度明显增加,特别是在Agent场景的多轮对话后期。 这种“多思考、更可靠”的行为模式提升了输出质量,但也意味着token消耗会随会话长度增长。 与Opus 4.6同价,有这些注意事项你需要知道 目前,Opus 4.7已实现全平台开放。 除Claude官方途径外,新模型不仅登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方API,还同步上线微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台。 其定价与Opus 4.6保持一致:输入5美元每百万tokens,输出25美元每百万tokens。 虽然如前所述,Opus 4.7涉及提示词的重构需求和token使用策略的调整,但Anthropic在自己的内部测试中给出了积极信号。 在一个内部Agent编码评估中,所有effort level下的token使用效率相比Opus 4.6都有改善。 换句话说,虽然单次调用的token数可能增加,但完成任务所需的总token往往更少,因为模型犯错的次数减少了。 大概就像你雇了个时薪更高的资深工程师,但他完成任务的速度更快、返工更少,最终总成本可能更低。 另外,Opus 4.7在后续轮次中会更加谨慎,特别是在Agent场景中。 这意味着更可靠的输出,但也意味着更多的token消耗。 开发者可以通过调整effort参数、设置任务预算或优化提示词来平衡性能与成本。 Anthropic建议,在测试Opus 4.7的编码和Agent用例时,从high或xhigh努力级别开始,根据实际需求逐步调整。 Anyway~ 总的来说,实际使用成本会因使用方式的不同而变化,但大多数情况下,能力提升带来的效率增益会抵消token消耗的增加。 对于依赖Claude进行复杂开发工作的团队来说,这很可能是一笔划算的交易。 |
|
|
|
|
|
|
| 伊朗复盘美军“救人”行动,发现诡异细节 | |
| 涉武器造假?中国兵器装备集团大佬被判13年 | |
| 大萧条!中国退回30年前,5元盒饭回来了 | |
| 5个迹象表明,日本在筹备一场大仗? | |
| 俄军再玩“管道”渗透 29人出管即“成盒” |