专栏名称: 运维帮
互联网技术分享平台,分享的力量。帮主一直坚信技术可以改变世界,从毕业到现在干了15年运维,有许多话要和你说。
目录
相关文章推荐
51好读  ›  专栏  ›  运维帮

终于有人将大模型可视化了!

运维帮  · 公众号  · 运维  · 2024-04-30 18:30

正文

请到「今天看啥」查看全文


用户需要先安装依赖项,然后启动开发服务 器即可进行本地运行 ,下面是源码,内附部署教程。

本地部署版本:https://github.com/bbycroft/llm-viz


大模型可视化

在此我们以nano-GPT为例,将推理过程进行了可视化。

左侧的图表展示了模型结构的全面概览,详细描绘了模型的整体框架及其各个组件的组成。

从上图中,我们可以清晰地看到nano-GPT是基于Transformer架构构建的。Transformer架构本质上是一种Encoder-Decoder结构,然而GPT模型独辟蹊径,仅采用了Decoder部分。在Decoder中,每个Token的输出仅依赖于当前输入Token之前的Token信息,因此Decoder主要被应用于文本生成任务,它通过自回归的方式预测下一个可能出现的单词。

当然,有仅采用Decoder的模型,自然也有仅利用Encoder的模型。Bert便是其中的佼佼者。在Encoder中,每个Token的输出都融合了所有输入Token的信息,这使得Encoder在文本理解方面表现尤为出色。

此外,还有一类模型同时使用了Encoder和Decoder,它们构成了典型的seq2seq架构。其中,Encoder负责捕获源序列的内在表示,而Decoder则将这些表示解码为目标序列。这种架构在诸如语言翻译、语音识别等应用中发挥了重要作用。







请到「今天看啥」查看全文