专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
51好读  ›  专栏  ›  AIGC新智界

Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天

AIGC新智界  · 公众号  · 比特币  · 2024-10-23 17:50

正文

请到「今天看啥」查看全文



于是他让Claude下载文件,然后在VS Code中将其打开。Claude成功完成了这些指令。


然后小哥让Claude启动了一个服务器,然后就可以在浏览器中实际查看这个文件了。


Claude打开了VS Code终端,尝试启动一个服务器,然后却遇到了错误:机子上并没有安装Python。


结果,通过查看终端输出,Claude自己发现了这个问题!它用Python 3再次尝试,成功运行起了服务器。



不过,终端输出中有个错误,顶部还缺少了一个文件图标。开发者小哥请Claude来识别这个错误,在文件中修复它。


令人惊喜的是,Claude在VS Code中找到了引发错误的行,删除了整行,然后保存文件、重新运行网站。



这次,网站完全正确!



自动寻找数据填表


假设我们需要填写一份来自「蚂蚁设备公司」的供应商请求表,但需要填写的数据散步在电脑的各个角落,Claude能帮我们完成吗?


只见它开始截取小哥的屏幕截图,并且很快发现:蚂蚁设备公司并不在表格中。



这时,它立刻切换到CRM系统中,去搜索这个公司。找到后,它开始滚动页面,查找填表所需的所有信息,然后提交了表格。


这也就意味着,我们工作中许多不得不做的繁琐事项,都可以交由Claude代劳了!



现在,这个功能已经在API中可用了。


现在,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司,已经在探索Claude的新潜能,让它们执行数十步甚至数百步的复杂任务了。


比如,Replit正在利用Claude 3.5 Sonnet的计算机使用和用户界面导航能力,为Replit Agent开发功能,在构建应用程序过程中对其实时评估。


远低于人类,但未来可期


新升级后的Claude 3.5 Sonnet,电脑使用能力究竟如何?


在 OSWorld测试中,它在仅基于屏幕截图的任务类别中得分为14.9%,明显超越了排名第二的AI系统(7.8%)。


当允许更多操作步骤来完成任务时,Claude得分提高到了22.0%。


这表明模型与环境的多次交互,能够优化任务性能。


虽然这一结果比之前有了大幅提升,但仍然远低于人类72.36%的表现。


这也暗示了,Claude 3.5 Sonnet未来还有很大的改进空间。



毕竟,人类毫不费力完成的一些操作(滚动、拖动、缩放),目前对于Claude来说极具挑战。


升级版Claude 3.5 Sonnet,编码王者干翻o1


在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升。


特别是,智能体编码、工具使用任务中取得显著突破。



论文地址:

https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf


在编码能力方面,它在SWE-bench Verified测试中,性能从33.4%大幅提升至49.0%。


这超越了所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为智能体编码设计的专门系统。



此外,在TAU-bench(一项评估智能体工具使用能力的基准测试)中,Claude 3.5 Sonnet也表现出色:


在零售领域的得分从62.6%提高到69.2%,在更具挑战性的航空领域则从36.0%跃升至46.0%。







请到「今天看啥」查看全文