专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  5个月狂飙200%!Anthropic ... ·  2 天前  
软件定义世界(SDX)  ·  【PPT】AI的前世今生 | ... ·  2 天前  
数据派THU  ·  AAAI 25 | ... ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

超强AI代理上线!OpenAI推出“Deep Research”,媲美研究分析师水平?

大数据文摘  · 公众号  · 大数据  · 2025-02-03 20:15

正文

请到「今天看啥」查看全文


OpenAI展示了好多个实用场景,比如制作商业报告表格,大海捞针(根据片段场景描述找到影视剧出处),医学研究分析,用户体验设计,个性化需求购物推荐和常识的解读参考等等。
在对各个领域的专家级任务进行的内部评估中,人类专家们认为“深度研究”可以自动化完成数小时的艰难手动调查,但需要给AI更多的时间,此外,AI模型浏览的内容越多,对所浏览内容思考得越深入,其表现就越好。
下图为任务通过率与最大工具调用次数曲线,基本上是成正比的状态:
另一个有趣的发现是,任务的经济价值与通过率的相关性比与人类花费的小时数的相关性更高。也就是说,模型觉得困难的事情,和人类觉得耗时的事情并不完全相同。
OpenAI官方表示,深度研究现已在ChatGPT网页上推出,并将在本月内推广到移动和桌面应用,目前,深度研究可以访问开放网络和任何上传的文件,未来,则能够连接到更专业的数据源上(扩大其对基于订阅或内部资源的访问),从而使其输出更加可靠和个性化。
由于深度研究处于早期阶段,它也存在局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率低于现有的ChatGPT模型。
展望未来,OpenAI表示AI代理体验将融入ChatGPT用于异步、现实世界的研究和执行。深度研究(可执行异步在线调查)与Operator(可采取现实世界的行动)相结合,使ChatGPT能够执行越来越复杂的任务。
可预见的颠覆性
Sam Altman表示,深度研究功能计算密集且速度慢,可能需要5到30分钟才能完成一项任务,但它是第一个能够完成多种复杂、有价值任务的AI系统。
用他的话说性价比非常高:“投入50美分的计算成本,创造500美元的价值。”






请到「今天看啥」查看全文