豆包为什么要给 AI 助手「开眼」？

极客公园 · 公众号 · 科技媒体 · 2025-05-26 20:00

正文

请到「今天看啥」查看全文

而在看展览的过程中，我们也可以举着手机，随时针对任何一幅作品向豆包发问。从基本的翻译作品信息，到问它作品风格具体属于哪一个派别，是否有模仿哪个艺术家的痕迹，豆包都能给出精准判断。

基于豆包给出的信息，我们也能进一步挖掘一些更深的隐藏关联。比如在新加坡国家美术馆里有一个法院拘留室的展示区域，问过豆包之后我发现，这里的关系在于，新加坡国家美术馆由原政府大厦和原最高法院大楼改建而成。前法院的拘留室曾用于关押候审的被告，在美术馆改建后，部分拘留室被保留了下来，成为了美术馆的一部分，供公众参观，让人们可以了解新加坡的司法历史。

除此之外，我们还可以和豆包讲讲自己对美术作品的一些理解和看法，进行观点碰撞。实际上，豆包已经具备一定的「纠错」能力，不是只会一味地顺从用户的理解。比如这里，当我引用了错误的类比，说这个作品像「蒙德里安」风格时，豆包能够纠正我的错误，告诉我实际像的是安迪·沃霍尔。之后我们还可以进一步探讨，为什么会出现这个错误。我们也可以引导豆包对作品进行批判性的解读和评价。

这里还有一个很关键的点，因为有了图像视觉信息作为辅助，很多时候即便我发出指令的声音很小，豆包并未完整识别我所说的句子的每一个字，但它依然能通过捕捉关键词，准确理解我的意图。

在旅行、观光、展览……等视觉信息占比更高的场景，最能体现出豆包视频通话能力的优势。我们可以随手举起手机，让豆包看到我们眼前的东西，从最基本的「这是什么？」出发，一点点挖掘出更多的信息和知识。比如让豆包根据周边的景色推理出我们在哪，推荐周边值得一去的景点、活动、特色饮食，这既具有实用价值也充满乐趣，适合出游不喜欢做严密的计划，喜欢遇到更多偶然惊喜的 P 人。

包括在餐厅吃饭，碰到那些「不知道该怎么吃」的情形，也很适合通过视频通话功能求助豆包。比如吃荞麦面的时候店员端上来一壶像热水一样的东西，这个时候豆包也轻松给出了正确答案，壶里装的是荞麦面汤，可以和酱汁混合在一起喝掉。

豆包的视频通话功能，相比普通的图像识别，最关键的优势依然在于它的「互动性」更强。基于单张图像的理解和推理，很可能出现各种理解偏差、错误。有了视频模式之后，即便豆包给出了一个比较可疑的回应，我们也可以通过换个角度，提供更多信息，来给豆包进行更多思考和修正的机会。

比如在这个场景下，我们想知道酒店的某个装置的作用，问豆包之后它首先以为我们问的是前面的熨衣板。经过进一步交互，它知道了我们想问的是后面的行李架，但因为角度问题，它将行李架错误理解成了健身器材，之后换个角度进一步追问并识别之后，豆包成功给出了行李架这一答案。

这是视频通话的功能的关键优势之一。当下任何 AI 大模型都不可避免地会有「幻觉」和错误。当用户精心编写了一大段 prompt 却没有得到自己想要的输出结果时，就会极大打击他们使用 AI 的积极性。但通过给到更多信息，提供更多角度的输入补充，就能让 AI 更接近我们需要的正确答案。可以说，在视频通话场景下，AI 和用户形成了互动的正向循环。

除了日常生活场景，豆包的视频通话功能还可以在学习、工作等各种场景发挥作用，特别是基于一些纸质的材料进行理解和修改。比如对多页的纸质资料进行总结，或对学科题目进行解答、纠错。