全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

机器之心 · 公众号 · AI · 2017-04-29 15:30

正文

请到「今天看啥」查看全文

词块的实现通常需要一个底层的 POS 实现，然后这些词再被组合起来或通过连接（concatenation）进行分块。

4.3 命名实体识别（Named Entity Recognition）

NER 将一个句子中的基本元素标注到类别上，比如 PERSON 或 LOCATION。

训练 NER 分类器的特征包括 POS 标签、CHUNK 标签、前缀和后缀以及被标记实体的大型词典。

4.4 语义角色标注（Semantic Role Labeling）

SRL 的目标是为句子的句法成分分配语义角色。

当前最佳的 SRL 系统由多个阶段组成：产生一个解析树，识别哪个解析树节点表示了给定动词的参数，最后分类这些节点来计算对应的 SRL 标签。

SRL 系统通常会详细给出多个特征，比如词性和词的句法标签及在树中的节点、该动词在解析树中的句法路径、该解析树中的节点是否是名词或动词短语等的一部分。

5 文档向量化

文档向量化可被用来将文本内容转换成一个数值向量表征，该表征可被用作特征，然后其可被用来训练机器学习模型。本节探讨了几种用来计算这种特征向量的统计学方法 (John and Vechtomova, 2017)。

5.1 n-gram 模型

n-gram 是来自给定文本或语音序列的 n 项连续序列。给定一个完整的文档语料库，每个元组 n 个 gram，字符和词都被表示为一个比特向量（bit vector）中一个特定的比特；在与一个文本体（body of text）聚合时，其会形成一个稀疏的对该文本的向量化表征，采用了 n-gram 共现的形式。

5.2 TF-IDF 模型

即项频率-逆文档频率（term frequency - inverse document frequency），这是一种数值统计方法，目的是反映一个词对集合或语料库中的一个文档的重要程度 (Sparck Jones, 1972)。TF-IDF 的值会随一个词在该文档中所出现的次数的增长而线性增长，但也会被该词在该语料库中的出现频率而抵消，这有助于调节那些在一般情况下都常会出现的词。这是一个词袋模型，而且并不保存词的顺序。

5.3 段落向量模型（Paragraph Vector Model）

段落向量模型是由一个无监督学习算法构成的，其可以为可变长度的文本（比如句子或文档）学习到固定大小的向量表征（Le and Mikolov, 2014）。该向量表征可被学习用来预测从段落中采样的上下文中的周围的词。两种不同的实现都已经在社区中取得了突出表现：

Doc2Vec：一个用 Gensim 实现的 Python 库：https://radimrehurek.com/gensim/models/doc2vec.html
FastText：一个用 C++ 做的独立实现 (Bojanowski et al., 2016) (Joulin et al., 2016).

6 用于自然语言处理的神经网络模型入门（A Primer of Neural Net Models for NLP(Goldberg, 2016)）

全连接的前馈神经网络是非线性学习器，其可在使用了线性学习器的地方随时替换。
在实验结果上观察到的高准确度是由这种非线性与预训练的词嵌入所共同导致的。
多层前馈网络可以在情感分类和事实性问答上实现有竞争力的表现。
卷积和池化架构在许多任务上都得到了有潜力的结果，其中包括：文档分类、短文本归类、情感分类、实体之间关系类型分类、事件检测、释义识别、语义角色标注、问答、基于评论预测电影票房收入、建模文本兴趣和建模字符序列与词性标签之间的关系。
卷积和池化架构让我们可以将任意大的项编码成固定大小的向量，该向量捕获了它们最突出的特征，但这样它们也牺牲了大多数的结构信息。
循环和递归网络允许在使用序列和树的同时保留结构信息。
循环模型已经表明可以为语言建模得到非常强大的结果，另外还可用于序列标注、机器翻译、依存句法分析、情感分析、噪声文本规范化、对话状态跟踪、响应生成和建模字符序列与词性标签之间的关系。
递归模型已被证明能在 constituency 和依存句法分析再排序、对话解析、语义关系分类、基于解析树的政治意识形态检测、情感分类、目标依赖情感分类和问答方面得到当前最佳和近乎最佳的结果。
卷积网络已被观察到可有效地用于归纳相关任务，在语言建模任务上能得到与循环/递归网络同样的好效果。

7 一种神经概率语言模型（A Neural Probabilistic Language Model）

目标：如果了解一个句子的基本结构，那么其就能通过可互换短语替代原句的一部分而创造一个新句子（Bengio et al., 2003）。

挑战：主要的瓶颈是计算输出层的激活函数，因为该输出层是一个由 softmax 激活函数组成的全连接层。

描述：

本论文在优化算法方面的主要贡献是数据并行处理（不同的处理器处理不同的数据子集）和共享内存异步处理器的使用。
论文作者们提出通过学习词的分布式表征克服维度灾难，这种词的分布式表征允许每一个训练句子通过表示相邻句语义的指数反馈给模型。
令语言建模和其他学习问题变得困难的根本问题在于维度灾难。这在构建拥有许多离散随机变量（如句子中的词）之间的联合分布式时特别明显。
当前最佳的结果通常由使用 trigrams 获得的。
可以通过共享参数的多层神经网络替代现有句子的相似语义的语言结构而生成新句子。
本论文的目标是获得词向量序列的实数值，并学习沿特征向量相关的词序列的联合概率函数，从而学习实数值向量的表征和参数的概率分布。
概率函数可以调整而最大化训练数据的对数似然性，同时惩罚成本函数的方法与 Ridge 回归所使用的罚项一样。
这将确保语义相似的词最终具有几乎相等的特征向量，这称为学习分布特征向量。
对离散型变量建模，如将句子结构和连续值做对照，连续型函数可以假设其存在某些形式的局部性，但相似的假设不能在离散型函数中存在。
N-gram 模型通过计算每一个词（可以跟随一组 n 个预测词）的条件概率而实现对语言的概率建模。
可以通过将流行算法有效组合而生成新的词序列。如 n-grams 和超高的词频计数相结合。