学界 | 监督学习×强化学习，Facebook让聊天机器人学会谈判

AI科技评论 · 公众号 · AI · 2017-06-15 20:58

正文

请到「今天看啥」查看全文

AI 科技评论按：目前人们对聊天机器人的认识还在调戏微软小冰的阶段，可以明显感觉到小冰不是很关心上下文之间的关联。而且在我们的观念里，聊天机器人也没办法真的理解人类所说的话，没办法跟人类讨论事情、明确地达到什么共同目标。

不过，Facebook的人工智能研究机构FAIR刚刚开源并公开发表的聊天机器人就开始拥有了跟人类进行协商谈判、进行讨价还价的能力。通过监督学习+强化学习，这个聊天机器人不仅能理解字词和语义的对应关系，还能针对自己的目标制定策略，跟别人进行协商讨论达成一致。

以下为 AI 科技评论根据FAIR文章进行的详细介绍。

生活的每一天里，我们一睁眼就要不停地跟别人协商事情。要么是讨论看哪个电视台，要么是说服家里小孩吃蔬菜，或者买东西的时候讨价还价。这几件事的共同点是，都需要复杂的交流和讲理能力，而这些能力很难在计算机里见到。

发展到现在，聊天机器人方面的研究已经可以形成聊天系统，它能进行简短对话，能完成订餐馆这样的简单任务。但是让机器人跟人进行有意义的对话还是很难的，因为这需要机器人把它对对话的理解和它对世界的知识进行组合，然后再生成一句能帮它达到自己的目标的句子。

今天，Facebook FAIR的研究员们开源并公开发表的聊天机器人有了一项新能力，这个新能力就是协商。

有着不同目标的人类之间会产生冲突，然后通过协商达成一种大家共同认可的妥协，现在研究员们证明了聊天机器人也可以做到这些。具有不同目标的聊天机器人（具体实现是端到端训练的神经网络）在一段从头到尾的协商中，可以跟其它聊天机器人或者人类一起做出共同的决定或者达到共同的目标。

任务：多种类讨价还价

FAIR的研究员们研究了一种多种类讨价还价任务下的协商任务。给两个智能体展示同一组物体（比如2本书，1个帽子，3个篮球），为了能把东西分给它们，就需要教它们协商自己分到的数目。

每个智能体都有自己的价值函数，它代表了智能体对每种物体的关心程度如何（比如在智能体1看来每个篮球值3分）。然后，就像生活中一样，每个智能体都没法确切知道别的智能体的价值函数，只能从对话中进行推测（如果对方说他想要篮球，那在他看来篮球的分值肯定比较高）。