专栏名称: 集智俱乐部
本公众号用于发布与集智俱乐部有关的活动信息、文章以及关于俱乐部的基本介绍。
目录
相关文章推荐
每日人物  ·  为什么全网都爱看江苏“内斗”? ·  23 小时前  
南方人物周刊  ·  乌克兰为什么能穿越大半个俄罗斯炸飞机? ·  昨天  
南方人物周刊  ·  高圆圆像一条小河 | 记者眼 ·  2 天前  
虎哥政事儿  ·  张文宏,有新身份! ·  3 天前  
虎哥政事儿  ·  张文宏,有新身份! ·  3 天前  
51好读  ›  专栏  ›  集智俱乐部

在迁移学习中如何选择数据?

集智俱乐部  · 公众号  ·  · 2017-08-26 06:21

正文

请到「今天看啥」查看全文


对于迁移学习而言,选择数据的最主要的动机是为了防止负迁移,如果训练数据源的信息不仅没有用,反而会对目标域上的工作适得其反,便会产生负迁移。负迁移的典型例子是情绪分析:如果我们训练一个模型来预测图书评论的情绪分析,我们可以期待模型在书评这个域做的很好。然而,如果将这个模型迁移到电子产品的评论中,结果就是负迁移,我们模型学习到的术语与书籍情绪有关,而对于电子产品的评论则意义不大。

在从一个源到一个目标域的适应性的经典场景中, 我们唯一可以做的是创建一个能够解开这些从意义上转变的模型。然而,在两个非常不同的域之间进行适应仍然会频繁地失败或者模型表现非常差劲。

在现实世界中,我们通常可以访问多个数据源。在这种情况下,我们可以做的一件事是对我们的目标域最有帮助的数据进行训练。 然而,我们尚不清楚如何确定源数据对目标域的有用性的最佳方法。 现有工作通常依赖于源和目标域之间的相似度度量。在这种情况下,一件我们可以做的事情就是对我们的目标域最有帮助的数据进行训练。然而,确定源数据对目标域的有用性的最佳方法是雾里看花。 现有工作通常依赖于源和目标域之间的相似性度量。

3

数据选择的贝叶斯优化

我们的假设是,选择迁移学习训练数据的最佳方式取决于任务和目标域。 此外,虽然现有的指标只考虑与目标域有关的数据,但我们也认为,一些训练实例本身比其他训练实例更有帮助。

由于这些原因,我们建议学习迁移学习的数据选择指标。 我们使用贝叶斯优化(Bayesian Optimization)来实现,该框架已成功地用于优化神经网络中的超参数,并可用于优化任何黑盒功能。 我们通过定义与训练数据与目标域的相似性以及其多样性相关的几个特征来学习此功能。 在多次迭代过程中,数据选择模型就能够学习相关任务中特征的重要性。

4






请到「今天看啥」查看全文


推荐文章
每日人物  ·  为什么全网都爱看江苏“内斗”?
23 小时前
南方人物周刊  ·  高圆圆像一条小河 | 记者眼
2 天前
虎哥政事儿  ·  张文宏,有新身份!
3 天前
虎哥政事儿  ·  张文宏,有新身份!
3 天前
大叔爱吐槽  ·  我以前可能吃了假香蕉!
8 年前
看见音乐  ·  我们都想独处,却又想获得关注
8 年前