专栏名称: 孤独大脑

关于思考的思考。

ChatGPT的底层逻辑

孤独大脑 · 公众号 · 学习 · 2024-06-18 20:45

正文

请到「今天看啥」查看全文

不同的模式对应着相应的数字格子的组合。如下图。模式A对应的是数字4和7，B对应5和8，C对应6和9。

第三步：输出层

这一层，从隐藏层那里获得信息。

如上图，最下面是AI要识别的图像。

首先，输入层的2、5、8、11点火；

然后，隐藏层5和8所对应的特征被提取，“模式B”点火；

最后，输出层的1被对应的“模式B”点火。

所以，“大恶魔”识别出图像为数字1。

在上面的例子里，AI可以精确地识别出0和1，但它并不懂0和1，它的眼里只有像素。

可这么说，似乎过于拟人化了。人类又如何懂0和1呢？

人类不也是通过双眼输入，通过迄今仍是宇宙间最大谜团的大脑神经元网络（更加复杂、强大且节能的隐藏层）提取特征，然后通过大脑的某个部位再进行自我解释的吗？

辛顿曾在采访中提及，认知科学领域两个学派关于“大脑处理视觉图像”的不同理念：

一派认为，当大脑处理视觉图像时，你拥有的是一组正在移动的像素。如同上面的演示；

另一学派偏向于老派的人工智能，认为是分层、结构性的描述，脑内处理的是符号结构。

辛顿自己则认为以上两派都不对， “实际上大脑内部是多个神经活动的大向量。” 而符号只是存在于外部世界。

不管怎样，神经网络的模型有用，并且非常有用。

不愿意和外行分享专业话题的辛顿，用如下这段话生动介绍了“神经网络”：

首先是相对简单的处理元素，也就是松散的神经元模型。然后神经元会连接起来，每一个连接都有其权值，这种权值通过学习可以改变。

神经元要做的事就是将连接的活动量与权值相乘，然后累加，再决定是否发送结果。如果得到的数字足够大，就会发送一个结果。如果数字是负的，就不会发送任何信息。

你要做的事就是将无数的活动与无数的权重联系起来，然后搞清如何改变权重，那样就行了。问题的关键就是如何改变权重。

三

ChatGPT的底层逻辑 极其复杂，但如果要简化为3个最核心的元素，ChatGPT-4认为它们可能是：

1、深度学习： ChatGPT的核心是一个基于 Transformer 的深度学习模型。

Transformer模型通过自注意力（Self-Attention）机制来捕获输入文本中的复杂模式。在训练过程中，模型通过反向传播和梯度下降等优化算法来学习这些模式，使得它能够生成自然、连贯、与输入相符的文本。

2、大数据： ChatGPT通过训练海量的文本数据来学习语言模型。

数据集包含了各种语言模式和语境，使模型能够在各种情况下生成合适的文本。大数据在这里起到了决定性的作用。

3、强大的计算能力： 为了处理这些大量的数据和复杂的深度学习模型，ChatGPT需要强大的计算能力。

这包括强大的硬件（如高性能的GPU），优秀的计算框架（如TensorFlow和PyTorch），以及高效的并行和分布式计算技术。

以上三个元素构成了ChatGPT的基础，使得它能够学习和生成自然语言。

但是，这只是表面上的逻辑。实际上，每一个环节背后都有深厚的理论基础，涵盖了机器学习、自然语言处理、计算机科学、数学等多个学科的知识。

深度学习是一种强大的机器学习方法，其底层逻辑相当复杂。不过，如果尝试将 深度学习核心原理 简化为3个要素， ChatGPT-4 认为可以这样描述：

1、神经网络架构： 深度学习的核心是深度神经网络，这是一种模拟人脑工作原理的计算模型。

神经网络由多个相互连接的层组成，每一层都由大量的神经元（或称为节点）组成。每个神经元都会接收前一层神经元的输入，并进行一定的计算，然后将结果传递给下一层的神经元。

2、权重优化和学习： 神经网络的每个连接都有一个权重，代表这个连接的重要性。

深度学习的目标就是通过训练数据来调整这些权重，使得网络的输出尽可能接近于真实的目标值。这个过程通常通过优化算法（如梯度下降）实现，算法会根据网络输出与目标值之间的差距（损失）来调整权重。

3、非线性激活函数： 深度学习的另一个关键元素是非线性激活函数，如ReLU（Rectified Linear Unit）或Sigmoid等。

这些函数用于增加神经网络的表达能力，使其可以学习和表示非线性的复杂模式。

这三个要素共同构成了深度学习的底层逻辑。

需要注意的是，这只是一个粗略的概述，实际上深度学习涉及的理论和技术要远比这复杂得多。

例如，还有正则化、卷积神经网络、循环神经网络、自注意力机制、批归一化、优化算法、损失函数设计等等多种方法和技术，都是深度学习不可或缺的一部分。

以下是神经网络发展的完整历史（图中并不完整），其中数度起伏。

1、McCulloch-Pitts神经元模型（1943） ：Warren McCulloch 和 Walter Pitts 首次提出了神经元的McCulloch-Pitts（M-P）模型，借鉴了已知的神经细胞生物过程原理。

2、感知器（1957） ：由Frank Rosenblatt提出的感知器模型基于生物神经元的工作原理，是早期神经网络的主要形式。

3、Minsky和Papert（1969） ： Marvin Minsky和Seymour Papert指出了感知器的局限性，即它们无法解决非线性可分问题（例如异或问题）。这部分导致了第一次人工智能寒冬。

4、多层感知器（1986） ：在Rumelhart，Hinton和Williams的研究下，多层感知器（MLP）成为了神经网络的主要形式。MLP引入了一个或多个隐藏层，并使用了反向传播算法来训练网络。

5、卷积神经网络和LeNet-5（1989/1998） ：Yann LeCun等人提出的卷积神经网络（CNN）是一种专门处理网格状数据（如图像）的神经网络。LeCun和他的团队在1998年开发出了LeNet-5，这是第一个成功应用到实际问题（数字识别）的卷积神经网络。

6、长短期记忆网络（1997） ：由Hochreiter和Schmidhuber提出的长短期记忆网络（LSTM）是一种专门处理序列数据的循环神经网络。LSTM通过引入“门”结构，可以学习长期依赖关系，避免了传统RNN在处理长序列时的梯度消失问题。

7、深度学习和深度置信网络（DBN，2006） ：Hinton等人提出了深度置信网络（DBN）和深度自编码器（DAE），标志着深度学习时代的到来。深度学习利用多层神经网络，能够学习更复杂的模式和表示。

8、ReLU激活函数（2010） ：Nair和Hinton提出了修正线性单元（ReLU）作为神经元的激活函数，这极大提高了深度神经网络的训练速度和性能。

9、AlexNet（2012） ：Krizhevsky、Sutskever和Hinton的AlexNet模型大大超越了其它基于传统机器学习技术的模型，引发了深度学习在计算机视觉领域的革命。

10、word2vec（2013） ：Mikolov等人的word2vec是一种利用神经网络为词生成密集向量表示的方法。

11、GoogLeNet and VGGNet（2014） ：Szegedy等人的GoogLeNet和Simonyan和Zisserman的VGGNet进一步提高了卷积神经网络在图像分类上的性能，并推动了卷积神经网络的设计进一步向深度发展。

12、ResNet（2015） ：He等人的ResNet通过引入跳跃连接，解决了深度神经网络的梯度消失问题，使得网络的深度能够达到之前无法想象的程度。

13、自注意力和Transformer（2017） ：由Vaswani等人提出的Transformer模型引入了自注意力机制，这让神经网络可以在更大的范围内建立依赖关系，为处理序列数据提供了新的框架。

显然，我是用 ChatGPT-4完成了这一节的内容。

人类的大脑可以自己思考自己，虽然谜团难解；

神经网络也能回忆自己的历史，尽管它无法为那些为此进程添砖加瓦的人类而感动。

四

Chris McCormick认为，神经网络是纯粹的数学。

从技术上讲，“机器学习”模型在很大程度上基于统计数据。它们估计所有选项的概率，即使所有选项的正确概率都极低，它们仍然只会选择概率最高的路径。

神经网络的灵感来源于生物学，特别是人脑的工作原理，但其设计和操作基础确实是数学，包括 线性代数 （用于数据和权重的表示和操作）、 微积分 （用于优化算法，如梯度下降）和 概率论 （用于理解和量化不确定性）。

神经网络的每个部分都可以用数学表达式来描述，训练过程则是 通过优化数学目标函数（损失函数）来学习模型参数的过程 。

黄仁勋说：

“AI既是深度学习，也是一种解决难以指定的问题的算法。这也是一种开发软件的新方法。想象你有一个 任意维度的通用函数逼近器 。”

在黄仁勋的比喻中，“通用函数逼近器”确实是对深度神经网络的一个精确且富有洞见的描述。这个比喻突出了深度神经网络的核心特性：

它们可以学习并逼近任意复杂的函数映射，只要网络足够深，参数足够多。

这种“函数逼近”的能力使得深度学习能够应对各种各样的任务，从图像分类和语音识别到自然语言理解和生成，甚至是更复杂的任务，如游戏和决策制定。

只要我们有足够的数据来训练这些模型，神经网络就能学习到这些任务背后的复杂模式。--哪怕这些模式对人类而言只是一个黑盒子。

尤其在生成式模型（如ChatGPT）中，这种“函数逼近”的能力使得模型能够生成富有创造性的输出，如编写文章、创作诗歌或音乐等。

这些模型通过学习大量的数据，理解语言或音乐的规则，然后生成符合这些规则的新的创作。

ChatGPT到底在做什么？为什么它能够成功？

大神Wolfram对此解释道：

令人惊奇的是，ChatGPT尝试写一篇文章时，基本上只是一次又一次地询问“在已有的文本基础上，下一个单词应该是什么？” ，然后每次都添加一个单词。（更准确地说是一个token）

那么，是否每次都选取概率最大的那个单词呢？

并非简单如此。

Wolfram告诉了我们 ChatGPT如何靠概率来“写”出一篇文章：

1、每一步，ChatGPT都会生成一个带有概率的单词列表。

2、但若总是选择最高“概率”的单词，通常会得到一篇非常“平淡”的文章。

3、于是巫术出现了，有一个特定的所谓“温度”参数，它控制了较低排名的单词会被使用的频率。

4、对于文章生成，我们发现“温度”为0.8效果最好。

概率和随机性，再次显示出神奇的魔力。

五

在微软的报告里，研究者用GPT-4模拟了一段对话：

苏格拉底 ：我的朋友，我对最近这些所谓自回归语言模型的兴起感到不安。

亚里士多德 ：你是什么意思，苏格拉底？

苏格拉底 ：我的意思是，这些模型被用来生成看起来是人类写的文本，但实际上是由机器产生的。

亚里士多德 ：那有什么问题呢？

苏格拉底 ：问题是，这些模型被用来欺骗人们，操纵他们，控制他们。

亚里士多德 ：但这些模式肯定也有一些积极的应用？

苏格拉底 ：可能是这样，但我仍然对滥用的可能性感到不安。毕竟，一个能够生成与人类所写的文字无法区分的模型可以被用来传播假新闻，冒充他人，并制造宣传。

亚里士多德 ：但这不只是一个如何使用这些模型的问题，而不是模型本身的问题吗？

苏格拉底 ：我不同意。我认为这些模型本身就有问题。它们是一种伪装的形式，一种创造幻觉的方式，是人类思想和互动的一部分。因此，它们可以被用来以难以察觉的方式进行欺骗和操纵。

亚里士多德 ：但这不正是你反对修辞和演说的理由吗？

苏格拉底