终于有人将大模型可视化了！

运维帮 · 公众号 · 运维 · 2024-04-30 18:30

正文

请到「今天看啥」查看全文

用户需要先安装依赖项，然后启动开发服务器即可进行本地运行，下面是源码，内附部署教程。

本地部署版本：https://github.com/bbycroft/llm-viz

大模型可视化

在此我们以nano-GPT为例，将推理过程进行了可视化。

左侧的图表展示了模型结构的全面概览，详细描绘了模型的整体框架及其各个组件的组成。

从上图中，我们可以清晰地看到nano-GPT是基于Transformer架构构建的。Transformer架构本质上是一种Encoder-Decoder结构，然而GPT模型独辟蹊径，仅采用了Decoder部分。在Decoder中，每个Token的输出仅依赖于当前输入Token之前的Token信息，因此Decoder主要被应用于文本生成任务，它通过自回归的方式预测下一个可能出现的单词。

当然，有仅采用Decoder的模型，自然也有仅利用Encoder的模型。Bert便是其中的佼佼者。在Encoder中，每个Token的输出都融合了所有输入Token的信息，这使得Encoder在文本理解方面表现尤为出色。

此外，还有一类模型同时使用了Encoder和Decoder，它们构成了典型的seq2seq架构。其中，Encoder负责捕获源序列的内在表示，而Decoder则将这些表示解码为目标序列。这种架构在诸如语言翻译、语音识别等应用中发挥了重要作用。