正文
用户需要先安装依赖项,然后启动开发服务
器即可进行本地运行
,下面是源码,内附部署教程。
本地部署版本:https://github.com/bbycroft/llm-viz
大模型可视化
在此我们以nano-GPT为例,将推理过程进行了可视化。
左侧的图表展示了模型结构的全面概览,详细描绘了模型的整体框架及其各个组件的组成。
从上图中,我们可以清晰地看到nano-GPT是基于Transformer架构构建的。Transformer架构本质上是一种Encoder-Decoder结构,然而GPT模型独辟蹊径,仅采用了Decoder部分。在Decoder中,每个Token的输出仅依赖于当前输入Token之前的Token信息,因此Decoder主要被应用于文本生成任务,它通过自回归的方式预测下一个可能出现的单词。
当然,有仅采用Decoder的模型,自然也有仅利用Encoder的模型。Bert便是其中的佼佼者。在Encoder中,每个Token的输出都融合了所有输入Token的信息,这使得Encoder在文本理解方面表现尤为出色。
此外,还有一类模型同时使用了Encoder和Decoder,它们构成了典型的seq2seq架构。其中,Encoder负责捕获源序列的内在表示,而Decoder则将这些表示解码为目标序列。这种架构在诸如语言翻译、语音识别等应用中发挥了重要作用。