正文
于是他让Claude下载文件,然后在VS Code中将其打开。Claude成功完成了这些指令。
然后小哥让Claude启动了一个服务器,然后就可以在浏览器中实际查看这个文件了。
Claude打开了VS Code终端,尝试启动一个服务器,然后却遇到了错误:机子上并没有安装Python。
结果,通过查看终端输出,Claude自己发现了这个问题!它用Python 3再次尝试,成功运行起了服务器。
不过,终端输出中有个错误,顶部还缺少了一个文件图标。开发者小哥请Claude来识别这个错误,在文件中修复它。
令人惊喜的是,Claude在VS Code中找到了引发错误的行,删除了整行,然后保存文件、重新运行网站。
这次,网站完全正确!
自动寻找数据填表
假设我们需要填写一份来自「蚂蚁设备公司」的供应商请求表,但需要填写的数据散步在电脑的各个角落,Claude能帮我们完成吗?
只见它开始截取小哥的屏幕截图,并且很快发现:蚂蚁设备公司并不在表格中。
这时,它立刻切换到CRM系统中,去搜索这个公司。找到后,它开始滚动页面,查找填表所需的所有信息,然后提交了表格。
这也就意味着,我们工作中许多不得不做的繁琐事项,都可以交由Claude代劳了!
现在,这个功能已经在API中可用了。
现在,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司,已经在探索Claude的新潜能,让它们执行数十步甚至数百步的复杂任务了。
比如,Replit正在利用Claude 3.5 Sonnet的计算机使用和用户界面导航能力,为Replit Agent开发功能,在构建应用程序过程中对其实时评估。
远低于人类,但未来可期
新升级后的Claude 3.5 Sonnet,电脑使用能力究竟如何?
在 OSWorld测试中,它在仅基于屏幕截图的任务类别中得分为14.9%,明显超越了排名第二的AI系统(7.8%)。
当允许更多操作步骤来完成任务时,Claude得分提高到了22.0%。
这表明模型与环境的多次交互,能够优化任务性能。
虽然这一结果比之前有了大幅提升,但仍然远低于人类72.36%的表现。
这也暗示了,Claude 3.5 Sonnet未来还有很大的改进空间。
毕竟,人类毫不费力完成的一些操作(滚动、拖动、缩放),目前对于Claude来说极具挑战。
升级版Claude 3.5 Sonnet,编码王者干翻o1
在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升。
特别是,智能体编码、工具使用任务中取得显著突破。
论文地址:
https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf
在编码能力方面,它在SWE-bench Verified测试中,性能从33.4%大幅提升至49.0%。
这超越了所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为智能体编码设计的专门系统。
此外,在TAU-bench(一项评估智能体工具使用能力的基准测试)中,Claude 3.5 Sonnet也表现出色:
在零售领域的得分从62.6%提高到69.2%,在更具挑战性的航空领域则从36.0%跃升至46.0%。