专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
目录
相关文章推荐
51好读  ›  专栏  ›  极客公园

豆包为什么要给 AI 助手「开眼」?

极客公园  · 公众号  · 科技媒体  · 2025-05-26 20:00

正文

请到「今天看啥」查看全文


而在看展览的过程中,我们也可以举着手机,随时针对任何一幅作品向豆包发问。从基本的翻译作品信息,到问它作品风格具体属于哪一个派别,是否有模仿哪个艺术家的痕迹,豆包都能给出精准判断。

基于豆包给出的信息,我们也能进一步挖掘一些更深的隐藏关联。比如在新加坡国家美术馆里有一个法院拘留室的展示区域,问过豆包之后我发现,这里的关系在于,新加坡国家美术馆由原政府大厦和原最高法院大楼改建而成。前法院的拘留室曾用于关押候审的被告,在美术馆改建后,部分拘留室被保留了下来,成为了美术馆的一部分,供公众参观,让人们可以了解新加坡的司法历史。

除此之外,我们还可以和豆包讲讲自己对美术作品的一些理解和看法,进行观点碰撞。实际上,豆包已经具备一定的「纠错」能力,不是只会一味地顺从用户的理解。比如这里,当我引用了错误的类比,说这个作品像「蒙德里安」风格时,豆包能够纠正我的错误,告诉我实际像的是安迪·沃霍尔。之后我们还可以进一步探讨,为什么会出现这个错误。我们也可以引导豆包对作品进行批判性的解读和评价。

这里还有一个很关键的点,因为有了图像视觉信息作为辅助,很多时候即便我发出指令的声音很小,豆包并未完整识别我所说的句子的每一个字,但它依然能通过捕捉关键词,准确理解我的意图。

在旅行、观光、展览……等视觉信息占比更高的场景,最能体现出豆包视频通话能力的优势。我们可以随手举起手机,让豆包看到我们眼前的东西,从最基本的「这是什么?」出发,一点点挖掘出更多的信息和知识。比如让豆包根据周边的景色推理出我们在哪,推荐周边值得一去的景点、活动、特色饮食,这既具有实用价值也充满乐趣,适合出游不喜欢做严密的计划,喜欢遇到更多偶然惊喜的 P 人。

包括在餐厅吃饭,碰到那些「不知道该怎么吃」的情形,也很适合通过视频通话功能求助豆包。比如吃荞麦面的时候店员端上来一壶像热水一样的东西,这个时候豆包也轻松给出了正确答案,壶里装的是荞麦面汤,可以和酱汁混合在一起喝掉。

豆包的视频通话功能,相比普通的图像识别,最关键的优势依然在于它的「互动性」更强。基于单张图像的理解和推理,很可能出现各种理解偏差、错误。有了视频模式之后,即便豆包给出了一个比较可疑的回应,我们也可以通过换个角度,提供更多信息,来给豆包进行更多思考和修正的机会。

比如在这个场景下,我们想知道酒店的某个装置的作用,问豆包之后它首先以为我们问的是前面的熨衣板。经过进一步交互,它知道了我们想问的是后面的行李架,但因为角度问题,它将行李架错误理解成了健身器材,之后换个角度进一步追问并识别之后,豆包成功给出了行李架这一答案。

这是视频通话的功能的关键优势之一。当下任何 AI 大模型都不可避免地会有「幻觉」和错误。当用户精心编写了一大段 prompt 却没有得到自己想要的输出结果时,就会极大打击他们使用 AI 的积极性。但通过给到更多信息,提供更多角度的输入补充,就能让 AI 更接近我们需要的正确答案。可以说,在视频通话场景下,AI 和用户形成了互动的正向循环。

除了日常生活场景,豆包的视频通话功能还可以在学习、工作等各种场景发挥作用,特别是基于一些纸质的材料进行理解和修改。比如对多页的纸质资料进行总结,或对学科题目进行解答、纠错。







请到「今天看啥」查看全文