正文
Ego4D 是一个具有多样性的大规模的以第一人称视角为中心的数据集。它由来自全球 9 个不同国家 74 个地点的 855 名独特参与者收集的 3025 小时视频组成。该项目汇集了 88 名国际财团的研究人员,以大幅提高公开的以自我为中心的数据规模,使其在录像时间方面比任何其他数据集都大 20 倍以上。
Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示,今天的计算机视觉系统不像人类那样与第一人称和第三人称视角相关联。
就像是,将计算机视觉系统绑在过山车上,即使它是根据从地面边线显示的数十万张过山车的图像或视频进行训练的,但是它也不知道它在看什么。
为了让人工智能系统能够像我们一样的方式与世界互动,人工智能领域需要发展到一种全新的第一人称感知范式,”格劳曼在一份声明中说。“这意味着人工智能在实时运动、交互和多感官观察的背景下,通过人眼理解日常生活活动。”
Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战,这将推动未来 AI 助手向现实世界应用的发展。
例如,“我把钥匙放哪儿了?”“手机在哪里?”“有看到我的充电线吗?”这种场景别提有多熟悉了,几乎每天都会上场。
关键就是什么时候发生的?AI 可以通过检索过去以自我为中心的视频中的关键时刻来回答自由形式的问题并扩展个人记忆。
你可以问 AI 助手各种各样的问题,例如:我把孩子最喜欢的泰迪熊放哪儿了?