专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  LeRobot都能接大模型了↓-202506 ... ·  昨天  
新机器视觉  ·  工业现场相机坐标系和机械手坐标系的标定 ·  2 天前  
爱可可-爱生活  ·  本文提出的SmolVLA通过高效紧凑的架构设 ... ·  3 天前  
51好读  ›  专栏  ›  机器之心

学界 | CMU与谷歌新研究提出文本跳读方法,速度可达标准序贯LSTM的6倍

机器之心  · 公众号  · AI  · 2017-04-26 12:17

正文

请到「今天看啥」查看全文


因为很多文本内容都含有一些与主题不相关的东西,所以让机器学会根据上下文进行跳读可以大大节省文本处理的时间和效率。近日,卡内基梅隆大学和谷歌的研究者提出了一种让计算机可以学习跳读的新方法 LSTM-Jump,据该论文《Learning to Skim Text》介绍:这种模型的速度可以达到标准序贯 LSTM 的 6 倍,而且还能保证良好的准确度结果。机器之心对该研究的论文进行了摘要介绍,原论文可点击文末「阅读原文」查阅。想要更深入了解文本跳读研究的读者可参阅另一篇文章:《 MetaMind 深度解读 NLP 研究:如何让机器学习跳读 》。



在自然语言处理的很多子领域,循环神经网络都表现出了很大的潜力,这些子领域涵盖文档分类、机器翻译和自动问答等等。尽管潜力巨大,但许多循环模型都必须要逐词阅读整个文本,这会使得长文档的处理速度缓慢。比如说,要使用一个循环网络阅读一本书并回答有关于其的问题是很困难的。在这篇论文中,我们提出了一种阅读文本的方法,其可以在有需要的时候跳过不相关的信息。该方法的底层模型是一个循环网络,其可以在阅读了少量输入文本的词之后了解需要跳过多少内容。我们使用一种标准的策略梯度方法训练了该模型,使其可以做出离散的跳跃决策。在不同的四种任务(包括数值预测、情感分析、新闻文章分类和自动问答)的基准上,我们提出的一种带有跳过(jumping)的修改过的 LSTM 的速度可以达到标准序贯 LSTM(sequential LSTM)的 6 倍,而且同时还能维持同样的准确度或甚至达到更好的准确度。


2 方法


在这一节,我们介绍了我们提出的模型 LSTM-Jump。我们首先描述了其主要结构,后面介绍了评估该模型部分参数由不可微分性(nondifferentiability)而造成的难点。为了解决这个问题,我们借助了一种强化学习形式并采用了一种策略梯度方法。


2.1 模型概述







请到「今天看啥」查看全文