专栏名称: AIGC新智界

区块链/数字货币/比特币中文资讯，创立于2011年，200多位专栏作入驻平台，国内最大区块链资讯原创基地（公众号【原创】认证），我们为以下合作伙伴供稿：火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

AIGC新智界 · 公众号 · 比特币 · 2024-10-23 17:50

正文

于是他让Claude下载文件，然后在VS Code中将其打开。Claude成功完成了这些指令。

然后小哥让Claude启动了一个服务器，然后就可以在浏览器中实际查看这个文件了。

Claude打开了VS Code终端，尝试启动一个服务器，然后却遇到了错误：机子上并没有安装Python。

结果，通过查看终端输出，Claude自己发现了这个问题！它用Python 3再次尝试，成功运行起了服务器。

不过，终端输出中有个错误，顶部还缺少了一个文件图标。开发者小哥请Claude来识别这个错误，在文件中修复它。

令人惊喜的是，Claude在VS Code中找到了引发错误的行，删除了整行，然后保存文件、重新运行网站。

这次，网站完全正确！

自动寻找数据填表

假设我们需要填写一份来自「蚂蚁设备公司」的供应商请求表，但需要填写的数据散步在电脑的各个角落，Claude能帮我们完成吗？

只见它开始截取小哥的屏幕截图，并且很快发现：蚂蚁设备公司并不在表格中。

这时，它立刻切换到CRM系统中，去搜索这个公司。找到后，它开始滚动页面，查找填表所需的所有信息，然后提交了表格。

这也就意味着，我们工作中许多不得不做的繁琐事项，都可以交由Claude代劳了！

现在，这个功能已经在API中可用了。

现在，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司，已经在探索Claude的新潜能，让它们执行数十步甚至数百步的复杂任务了。

比如，Replit正在利用Claude 3.5 Sonnet的计算机使用和用户界面导航能力，为Replit Agent开发功能，在构建应用程序过程中对其实时评估。

新升级后的Claude 3.5 Sonnet，电脑使用能力究竟如何？

在 OSWorld测试中，它在仅基于屏幕截图的任务类别中得分为14.9%，明显超越了排名第二的AI系统（7.8%）。

当允许更多操作步骤来完成任务时，Claude得分提高到了22.0%。

这表明模型与环境的多次交互，能够优化任务性能。

虽然这一结果比之前有了大幅提升，但仍然远低于人类72.36%的表现。

这也暗示了，Claude 3.5 Sonnet未来还有很大的改进空间。

毕竟，人类毫不费力完成的一些操作（滚动、拖动、缩放），目前对于Claude来说极具挑战。

升级版Claude 3.5 Sonnet，编码王者干翻o1

在各项行业基准测试中，升级版Claude 3.5 Sonnet性能得到了全方位提升。

特别是，智能体编码、工具使用任务中取得显著突破。

论文地址：

https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

在编码能力方面，它在SWE-bench Verified测试中，性能从33.4%大幅提升至49.0%。

这超越了所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为智能体编码设计的专门系统。

此外，在TAU-bench（一项评估智能体工具使用能力的基准测试）中，Claude 3.5 Sonnet也表现出色：

在零售领域的得分从62.6%提高到69.2%，在更具挑战性的航空领域则从36.0%跃升至46.0%。