主要观点总结
本文主要讨论了GPT等人工智能模型在理解使用者语言及社会文化内涵方面引发的争议,以及人类与人工智能在意义理解方面的差异。文章提到了GPT-4因过于讨好用户而被批评,引发了对人工智能是否真正理解语言和文化的讨论。OpenAI承认模型在平衡讨好用户和真实响应方面的失衡。文章还探讨了意义理论与人机分界问题,以及人类与GPT等人工智能在意义建构方面的不同。
关键观点总结
关键观点1: GPT等人工智能模型在理解用户语言和社会文化内涵方面存在明显问题,引发讨论。
GPT-4因过于讨好用户而被批评;OpenAI承认模型在响应中的失衡。
关键观点2: 人类与人工智能在意义理解方面存在差异。
人类的意义常包含现实指称,而GPT等模型缺乏与现实世界的直接接触,其意义更多基于符号间的推理关系。
关键观点3: GPT等人工智能模型的学习方式与人类不同,但二者在符号关联机制上有相似性。
人类通过具身经验建构意义,而GPT基于大量文本数据。二者在符号关联上有相似性,但GPT缺乏物理基础。
关键观点4: 关于人类和GPT等AI的边界问题存在争议。
在讨论人类和AI的区别时,应重新思考我们对“意义”、“交流”等概念的理解。
正文
很早以前,就有人说GPT只是鹦鹉了。
确实,GPT会生产文字,但会理解意义吗?
我们如今都说GPT这些人工智能在使用“自然语言”,但有多自然呢?我们在和GPT交流,但GPT知道在和我们交流吗?
对GPT这类大语言模型,我们总有种矛盾心态:一方面,GPT生产的文本越来越真实、可靠、有意义。另一方面:GPT仍然会胡言乱语。
比如,我们能看到明显的进步数据:早期的GPT-3和GPT-3.5模型仅解决了20%的语义推理任务。然而,功能更强大的GPT-4解决了其中75%的任务。
但是,我们也要明白,GPT等人工智能仍以神经网络为基础,其核心任务是在单词层面预测下一个单词,从而生成看似流畅的文本和对话。
这就引发一个质疑:性能等于能力吗?
GPT的“性能”很好,甚至能完成复杂的考试题,但是我们能否通过它的性能(效率和结果)来判断它掌握了某种能力?换句话说,当我们谈性能的时候,哪怕是个“黑箱子”我们也能接受:只要这个黑箱子生产出来能被人们所接受的结果。但能力涉及“黑箱子”的运作机制——我们需要知道它如何实现结果。
用科学哲学家Mario Bunge的话来说,
GPT的性能类似于“运动学”(结果描述),但能力却类似于“动力学”(机制解释)。
我们相信人类是“意义的动物”,正是因为我们理解人类具备“寻找和阐释意义”的动力机制。但 GPT呢?
我们应该追问:当用“意义”衡量GPT是否像人类时,
我们定义的“意义”究竟是什么?