主要观点总结
本文介绍了思必驰创始人俞凯在2024全球人工智能产品博览会上的演讲和访谈内容,包括思必驰的技术路径、大模型技术的发展、创业经历、面临的挑战和对未来的看法等。思必驰专注于构建分布式大模型智能体系统,强调可靠的任务执行,与OpenAI的技术路径有所不同。目前,思必驰的产品在多个场景中落地,包括智能汽车、智能家居、消费电子等。同时,思必驰也在探索端侧模型的应用,与手机厂商的合作也在积极推进。
关键观点总结
关键观点1: 思必驰的技术路径
思必驰选择构建分布式大模型智能体系统,强调可靠的任务执行,与OpenAI的技术路径有所不同。思必驰的技术优势在于算法和系统结合上的优势,以及经过多次技术迭代积累的know-how优势。
关键观点2: 思必驰的创业经历
思必驰成立于2007年,经历了多次技术转变和关键性转折点。从最初的语音识别技术,到全链路智能对话系统,再到面向智能硬件的方向转变,思必驰一直在坚持技术创新和转型。
关键观点3: 思必驰面临的挑战
思必驰在发展过程中遇到了多种挑战,包括技术难度、软件产品易被复制、面向智能硬件的转化等。通过不断的技术迭代和积累,思必驰逐渐解决了这些挑战,形成了现在的竞争优势。
关键观点4: 思必驰的产品落地情况
思必驰的产品已经在多个场景中落地,包括智能汽车、智能家居、消费电子等。同时,思必驰也在积极推进与手机厂商的合作,探索端侧模型的应用。
关键观点5: 思必驰对未来的看法
思必驰认为未来端侧模型是一个重要方向,但同时也需要思考它的应用场景。思必驰正在与合作伙伴积极推进这一领域的发展,并探索更多的商业化应用场景。
正文
AI 科技评论:可以简单介绍一下你们的大模型技术路线吗?
俞凯:
我们一直把 ChatGPT 类的大模型叫做对话式人工智能、对话式语言计算。OpenAI 实际上是从预训练语言模型发展起来的,而思必驰是从一个完整的端到端对话系统发展起来的,一直以多轮交互为核心,不断迭代出现在的大语言模型。所以虽然殊途同归,但实际上我们有自己独特的发展轨迹。
思必驰 DFM
语言大模型是自主的技术研发路线逐渐形成的语言大模型。
长期持续开展对话式语言大模型自研的其实不多,可能 2023 年之后讲得比较多, 2023 年之前很少,DFM 是 2022 年初正式对外发布的,而发布之前内部就已经在用了,是真正意义上的独立研发。
AI 科技评论:你们和 OpenAI 技术路径的区别具体体现在何处?
俞凯:
OpenAI 这一类厂商是以超级智能为目标去建设单一集中式语言大模型,某种意义上是在造一个全知全能的神,它擅长创作和回答问题,并且可以生成多样性的回复。但这条技术路线在面向严肃的任务执行场景时遇到了许多问题,包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。
与之对比,我们的技术路线是构建 1+N 的分布式大模型智能体系统,这个「1」是中枢大模型,相当于大脑,「N」就是不同的垂域模型,大模型、小模型都有,它们都可以是智能体,然后又是分布式的。
这种模式类似于公司的组织架构,其中,CEO 是中枢大模型,CFO 、CTO 等是垂域大/小模型,从 CEO 到 CFO 、CTO 等都各司其职,在这之中并不需要每一个大模型都是超级智能,甚至所有的都不是超级智能体,这是思必驰跟 OpenAI 在技术路线上很关键的不同。
根据我们以往的产业实践,在实际大多数业务场景中,能够可靠地执行任务是最重要的,这类场景中的大模型本身不需要超级大,没有必要不计成本的去堆算力,而是需要许多平常的通用智能体,这些通用智能体具备和人进行交互的能力,当然通用智能体之间也可以互相交互。
AI 科技评论:所以你们的优势在于可靠的任务执行。
俞凯:
对。现在国内外比较火的一些大模型很多是以内容创作生成为核心,但思必驰主要关注的是以工具使用能力为主的执行智能。
二者的侧重点不同,生成式强调的是创造性、多样性、流利性,本质是丰富;执行强调的是不出错、可靠。现在大模型有各种各样的“幻觉”,思必驰 1+N 的体系会对执行任务的质量进行保障,乃至于用一些创新的技术思路重新去定义可靠性。
举个例子,我问 10 个问题,你能答对 6 个,其余 4 个你不知道,但是也胡乱作答了;他能答对 5 个,其余 5 个他说不知道,要去问专家。这种情况下,他可能更可靠。一些大模型其实不清楚自己的知识边界在哪,不懂得拒绝。
思必驰在车载系统里着重强调的拒识能力,就是「我不是在跟你说话,你不要回答我」。总的来讲,思必驰的立足点就是可靠执行。其实,思必驰的大模型也可以用来写小作文、诗歌等,在现阶段,这些不是我们的核心出发点。
AI 科技评论:为什么你们今年一直在强调智能体系统这个概念?
俞凯:
加了“系统”两个字之后,与大模型就不一样了。大模型现在讲的基本都是语言大模型,即使是一般意义的多模态大模型往往讲的也是一个软件、一个算法、一个程序,你有一个输入,它(模型)有一个输出。但如若只强调输入、输出文字,最终的用户体验不一定好。
我们强调的“系统”是要考虑多个不同的全链路系统组合,不单单只是智能体,有的可能包括模型,非模型的还有软硬件协同的问题,大模型实际上是“人的大脑”,除此之外还要让它有嘴巴、眼睛、耳朵等,这些要与大脑紧密结合,组成一个有机整体,给用户的交互体验会更好,这一点很重要。
举个例子,我说一句话,如果大模型一秒钟之后才反应,那就很慢了,怎么在零点几秒作出反应,还要满足高度可靠的快速定制需求,这就要在系统层面去实现。
做这套体系时,思必驰用分布式的方法将参数规模千亿、百亿、十亿等全尺度的大模型结合在一起,形成具备工具智能的可靠系统,这样才能实现更高的可靠性与产业落地。