专栏名称: 量化投资与机器学习

公众号主要介绍关于量化投资和机器学习的知识和应用。通过研报，论坛，博客，程序等途径全面的为大家带来知识食粮。版块语言分为：Python、Matlab、R，涉及领域有：量化投资、机器学习、深度学习、综合应用、干货分享等。

基于『大语言模型』和『新闻数据』的股票预测研究

量化投资与机器学习 · 公众号 · AI · 2024-07-30 14:14

正文

请到「今天看啥」查看全文

4、我们在真实的财务新闻和各种股票池上进行实验。除了评估预测误差外，我们还通过在样本外时期进行回测来评估基于收益预测构建的两种类型的投资组合。对仅包含编码器的和仅包含解码器的LLMs的实验，为识别适合不同投资策略和市场的文本表示提供了帮助。

具体介绍

下图为使用大模型基于新闻数据进行股票收益预测的流程：

我们知道大语言模型大部分是基于Transformer结构，其中又分为encoder-only（仅使用编码器部分），decoder-only（仅使用解码器部分）和encoder-decoder。本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。

Encoder-Only LLMs（编码器LLMs）：

这类模型主要关注于学习输入文本的上下文嵌入（contextual embeddings）。它们通过预训练阶段的掩码语言建模（masked-language modeling）来实现这一目标。

在掩码语言建模中，文本序列中的一些标记（tokens）会被随机遮蔽（mask），然后模型的任务是预测这些被遮蔽的标记。这个过程使得模型学习到的每个标记的向量表示能够结合其左侧和右侧的上下文信息。

一个著名的例子是（BERTBidirectional Encoder Representations from Transformers），它通过这种方式生成输入文本的双向表示。

在预训练中，模型会看到如“[MASK]”这样的特殊标记，并尝试根据周围的上下文来预测这个位置原本的词。

Decoder-Only LLMs（解码器LLMs）：

decoder-onlyLLMs在预训练中使用下一个词预测任务（next-token prediction task），它们被训练来生成文本，通过预测序列中下一个词来建模。

这类模型的预训练目标是自回归地（autoregressively）建模输入序列，即每个词的预测都依赖于之前已经看到的词。

为了模拟序列的第一个词，通常会在序列开始处添加一个特殊的开始序列标记（BOS，Beginning-of-Sequence token）。

一个例子是GPT-3（Generative Pretrained Transformer 3），它通过这种方式生成文本，并能够捕捉序列的流动性和连贯性。

作者还提到了两种将LLMs生成的标记级（token-level）向量表示整合到预测模块的方法： 瓶颈表示（bottleneck representations）和聚合表示（aggregated representations）。 这两种方法都旨在将LLMs生成的文本表示转化为能够用于预测股票回报的形式，但它们在如何整合序列信息方面采取了不同的策略。瓶颈表示通过一个单一的向量来捕捉整个序列的信息，而聚合表示则通过综合考虑序列中所有标记的信息来实现。论文的实验结果表明，这两种方法在不同的投资领域和不同的LLMs中表现各有优劣。

瓶颈表示（Bottleneck Representations）：

1、这种方法的核心思想是在微调（fine-tuning）过程中，促使LLMs将整个文本序列的信息压缩成一个单一的向量表示。

2、实际操作中，通过在输入序列的末尾添加一个序列结束（End-of-Sequence, EOS）标记来实现。由于EOS标记在所有序列中都是相同的，它的向量表示将依赖于序列中的实际标记。

3、在微调过程中，EOS标记的向量表示被送入预测模块，并在训练过程中通过反向传播（backpropagation）来调整，以总结序列中实际标记的表示。

4、对于encoder-only LLMs，这种方法与预训练阶段的掩码语言建模任务一致，可能有助于更有效地总结序列级特征。

聚合表示（Aggregated Representations）：

1、与瓶颈表示不同，聚合表示不是将信息压缩成一个单一的向量，而是允许预测模块综合考虑序列中所有标记的向量表示。

2、这种综合可以通过简单的方法实现，例如对所有标记的向量表示进行平均，或者使用更复杂的方法，如注意力机制（attention mechanisms）。

3、论文中选择了简单的平均方法，因为它不需要训练额外的参数，并且可以清晰地与瓶颈表示进行比较。

4、对于decoder-onlyLLMs，使用聚合表示可能会增加预训练和微调之间的差异，因为每个标记的表示是基于上下文和自身，而不是预训练中的掩码标记。

5、对于decoder-only LLMs，平均所有标记的表示可能会导致对输入序列中早期标记的偏见，因为在自回归设置中，早期标记会反复合并到后续所有标记的表示中。