正文
这篇文章是最近尝试让系统了解什么是对象,然后使用所学的动力学正向模拟那些对象的行为来构建学习问题的少数研究之一。该篇论文表示:“ OP3 强制执行实体抽象,将潜在状态分解为局部实体状态,每个局部状态均使用以通用实体作为参数的相同函数进行对称处理。”
此工作尚处于起步阶段,但我期待看到社区将如何继续研究使用新颖的学习结构,来系统找出感兴趣的实体,然后用于后续的规划管道中。
图1 这是来自实体抽象论文的一个示例,展示了如何使用此方法对未来进行预测
这篇论文涉及到构建一个在线拓扑图作为寻找语义目标的智能体导航(例如找到厨房)。导航时,智能体将定期识别新的房间,并在它们变得足够确定时将新房间添加到其不断增长的关系图中。这里执行的一切处理都基于视觉,意味着系统必须处理相当大的不确定性和高维输入。这篇文章与 ICLR 2018 上发表的一篇极具影响力的论文《 Semi-parametric Topological Memory for Navigation》的想法类似:智能体需要事先演示环境以构建它的地图。
在未来几年里,我期望看到 AI 研究社区如何继续将基于模型和不基于模型的技术之间的边界模糊化。
概括而言:我希望符号 AI 和更多“现代”深度学习方法能够交叉取得更多的进展,以解决像基于视觉的地图构建、不确定性下的规划和终身学习等机器人技术社区感兴趣的问题。
三、有监督的计算机视觉领域研究
自从 Facebook 研究院的 Mask-RCNN 在 2018 年兴起以来,我在监督机器视觉领域再也没有看到尤为鼓舞人心的研究成果。这并不是说这个领域的研究不重要。
在这个领域,诸如语义分割或对象检测之类的研究进展已经相当成熟。ImageNet 大规模视觉识别挑战赛(ILSVRC)的对象检测已逐渐淡出人们的视线,因为只有企业(通常拥有优质丰富的数据集或财务资源)愿意在这一挑战赛中争取获得好的名次。
但这不是一件坏事!事实上现在尤其是机器人研究者的好时机,因为研究社区已经发展到了这样一个节点:在研究人员可用的数据集之外尽可能地追求更高的性能,并且开始更加关注广泛采用机器人工具和与这一过程相关的“便利功能”。
现在研究社区在使用各种各样的新技术来更快地训练这些系统,并且在不影响准确性的情况下使它们更快更有效。
作为一个对真实世界感兴趣和经常使用这些新技术的人,我发现我对尤其是在像智能手机和小型自动机器人等资源受限的系统上使用这些技术的研究特别感兴趣,这些研究将会促使这些工具和功能得到更广泛的应用。
在网络蒸馏方面,一些很棒的工作十分值得关注:在训练模型后使用优化技术删除对整体性能影响不大的神经网络部分,代价只不过是增加些计算量。
对于如何避免需要剪枝来初始化和训练小型神经网络,《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》一文提出了一些有趣的想法,尽管该成果尚未产生广泛的实际影响。
同时,在下方这篇“超棒”的 GitHub 贴文提供了不同网络剪枝方法的完整列表。
还有一些相关技术,是使用专用的硬件功能来进一步加速网络编译。《FastDepth:Fast Monocular Depth Estimation on Embedded Systems》一文就是在单目深度估计任务中结合使用这些技术的一个很好的例子。