主要观点总结
本文是对沈旸的访谈记录整理而成,旨在记录企业推进AI转型的深度思考与实践经验,为更多组织提供可借鉴的AI转型路径参考。文章主要讨论了AI Native的概念、AI转型的步骤、AI Agent的应用以及未来软件生产模式的变化等,强调了AI技术在提升效率和创新方面的潜力,同时也指出了AI转型过程中面临的挑战和机遇。
关键观点总结
关键观点1: AI Native的概念和重要性
AI Native指的是依赖AI技术才能运行的企业形态,旨在通过提升人均效益和实现无限制复制组织能力来推动社会转型。
关键观点2: AI转型的步骤
企业推进AI转型需要让所有团队对AI产生好奇,提供方便的AI工具,并寻找探索和实践的细分场景。
关键观点3: AI Agent的应用
AI Agent可以应用于多个场景,如预订会议室、风控模型等,提升工作效率和灵活性。
关键观点4: 未来软件生产模式的变化
未来的软件开发将更依赖于AI,通过聊天方式构建原型,并由AI开发人员完成开发,这将提高开发效率和降低开发成本。
关键观点5: 个人和组织的转型
未来个人和组织需要适应AI的发展,实现转型,利用AI技术提升工作效率和创新能力。
正文
每个人都有自己的长处和短处。过去,由于能力、资源等原因,人们在弥补短板时,要么花钱解决,要么努力克服,这其实浪费了在长板上的天赋。
在组织中也是如此,很难做到让每个人的天赋都得到充分发挥。各个岗位分工精细,你可能擅长某个岗位,但当前并不在这个岗位上,职责也不属于你,就无法发挥作用。而且找到完全匹配的人、组织和团队的成本非常高。
非常高。要找到完全匹配的人、组织和团队,搜索成本极高。
所以未来AI Native的组织,就像刚才我们讨论个人时提到的,在资源充裕的情况下,让每个人做更擅长的事情。
在组织中,就是让每个人在擅长的岗位各司其职。那么这种匹配是如何实现的呢?AI在其中会发挥什么作用?大家不愿意干的这些活都已经cover掉了。但人与岗位的匹配是怎么实现的呢?
人员与岗位的匹配,目前存在一些问题。过去进行数字化时,很多信息没有被记录下来。比如你与岗位是否匹配,以往可能一年有个OKR、KPI,年底写一段话,或者用二三十页PPT呈现一年的工作,又或者在OKR系统里用几百字记录。但这些并不能代表全部工作,日常的决策、交流、开会等信息很多都没有被有效记录。即使这些信息被记录下来,在ChatGPT出现之前,也难以利用。比如会议纪要,记录了之后有人看吗?从大量会议纪要中搜索信息也很困难。开了一年500个会,每个会的决策、思考等信息,如果都要详细记录,对人的搜索能力要求极高。
在传统领域,人对信息的吸收存在明显瓶颈。
不仅带宽低,人还容易情绪化。比如你会更愿意和喜欢的人交流,PPT会用自己习惯的格式。甚至PPT中某个颜色让你感到惊喜,可能都会影响你当天的工作状态。这些都会影响人正常吸收信息的能力。我认为AI的优势在于,它最擅长的是翻译,比如英文翻中文、中文翻英文。其实可以把每个人的语言和思维体系看作一种语言,你的思考体系和理解方式是一种语言,我的是另一种语言。这是我们过去多年成长经历形成的。
很多时候我跟你说一句话,我以为你能理解,因为我有自己的上下文背景,但由于你我的成长背景不同,你可能理解不了。目前AI未来有望很好地解决人与人之间的“翻译”问题。
但是我们缺的是什么呢?
缺的是对个人和组织模型的描述。目前像ChatGPT、DeepSeek等大模型,更多是具有普世价值的模型,回答问题中规中矩。它整合了几千人、几万人甚至上亿人的知识和价值观。比如对大模型进行价值观测评,它的回答永远比较中性,不会极端。但人因基因和成长经历不同,每个人的模型都不一样。
对。我前几天看到有创业者在做“Second Me”,就是把一个模型训练成第二个自己,用个人历史数据信息进行训练,让它了解你是什么样的人。我们有同事之前在AI工具里设定一个系统提示词,让AI用她的方式来思考。那未来是不是每个人都会有一个类似自己的大模型,同时它也是自己的AI Agent?
你的AI助手,会的,但需要给AI很多训练机会。我们自己思考时,很多数据不会外露。比如互联网公司会收集一些数据,但这个数据很片面。比如说你在网上买一个东西,你为什么买这个东西?其实背后可能也有很多的思考。比如说当时可能是因为价格,这个东西打折了,你才愿意去买这个东西。但是很多时候你表露出来的,我并不是因为小气,并不是说省钱,而是因为这东西好看。你说出来的东西跟自己想的其实并不是百分之百完全一样。
要将大脑中的想法数字化,目前还很难做到,未来可能要依靠脑机接口。
我大学本科毕业设计做的就是脑机接口相关内容。
我认为未来的前沿领域之一就是脑机接口,通过它可以记录大脑的潜意识,并与动作挂钩,让AI大模型不断模拟你的决策。
其实决策最重要的就是你脑子中怎么想。说人是受到社会约束的一个动物也好,或者是一个个体也好,你可以胡思乱想。但是你在这个社会里面,你最后做出来的行为,你不能伤人,你不能伤害大家利益,对吧?你一定要做出一个比较利益最大化的一个决策。大家脑子里可能都会异想天开,胡思乱想各方面的东西。但是一旦到做出动作的时候,做出决策的时候,他一定是个比较理性的一个决策。
没错,如果模型能够模拟这个过程并预测你接下来的行为,且准确率不断提升,那确实就像你的分身。
这件事未来比较容易去做的,因为现在很多技术都在降低成本。比如拍短视频就是一个例子。以前我举过一个例子,如果把人一生中每天的行为都用视频记录下来,即使大脑意识不完全披露,AI也能较好地理解你、模仿你。因为至少输入和输出都被记录下来了,AI可以把你当作一个黑盒子,不断模拟你的行为,当模拟准确率达到99%或更高时,对性格等方面的描述就会非常精准。这其实是AI未来很容易做到的一点。
那您觉得在大语言模型这条路线上可以训练出我们自己的模型吗?
我觉得还不一定。
人的大脑与ChatGPT模型不同,现在DeepSeek等模型有一些新的概念。ChatGPT模型更像是概率模型,是单向的,没有形成回路,而人做决策需要反馈。
人的大脑还有一个厉害的地方,就是有仿真环境。比如在做一件事之前,你可以脑补场景,像在电视上看过旅游的场景,你就能想象自己去旅游的情况。做梦也是一种脑补过程,梦境中的场景非常真实。
但目前的大语言模型缺乏对人或环境的真实描述。
目前大模型我给他举个例子,更像一个缸中之脑,在营养液里面泡着一个大脑,它只会输出一些文字。我们为什么有时候会觉得这个AI不靠谱?因为没有反馈。
最近Manus等取得很大进展,就是因为通过大模型调用各种API、RPA等工具。他让这些事情得到一个反馈,我能迅速看到这个实际反馈到底是正确的还是不正确的。
前两天LeCunn一直在讲世界模型,也是类似的道理。
现在的AI缺乏对物理规则的理解,而人出生就有对环境的感知和对物理规则的基本理解。所以他们尝试用联合嵌入预测架构等模型进行预测,并与真实情况对比,初步让大模型掌握对世界的预测能力。
这可能也是接下来的一些方向。
机器人也是,如果机器人有了AI大脑,再加上身体,就能与环境互动交流,获得直接反馈,发展会更快。
现在大模型融合视觉、听觉等原生模型后,能够形成自闭环模式。但要形成类似人类大脑的仿真环境,还需要进一步探索。
现在至少在数字世界里面是比较容易的。比如做一道题目或设计一个游戏,在数字世界里更容易完成闭环。所以我们可以看到,过去的AI未来可能会与操作系统、虚拟机、容器、云架构更好地整合,这反而会促进云计算的发展。
组织推进AI转型的关键步骤,第一步让团队对AI产生好奇
刚才我们讨论了AI Native相关的个人和组织的未来构想。我们也很关心当下如何向未来迈进。很多企业想知道如何进行AI Native转型,如何在企业中应用AI。我知道您的公司在信息化方面深耕多年,有很多有意思的应用案例,近期在AI Agent方面也有探索。能不能分享几个您觉得比较有意思的应用?
好的。
我认为首先要让所有团队对AI产生好奇。
大家看到AI后,要思考它能做什么,公司内部可以组织研讨会分享相关内容。作为科技团队,要为员工提供方便使用的工具。比如OpenAI刚推出时,API连接不方便,那你可以迅速搭建中间API为大家提供服务。DeepSeek也是如此,一开始大家使用时可能会遇到服务器忙等问题,从而失去兴趣,所以要提供稳定、随手可用的入口,这很重要。
然后在内部寻找探索和实践的细分场景。
比如说一开始可能就非常简单,就是拿AI去写写PPT,写写文档,把这些工作给做完。但这个工作对任何一个公司,都是普适性的,对吧?那这个时候大家可能会对AI有一些了解,比如说以前大语言模型,大家可能会觉得他对文字的润色的这些工作做的特别好,但是你可能要加很多的Prompt,加自己习惯的Prompt。有点像秘诀一样,像法术一样。它是一个普适的场景,他可能跟公司场景并不是特别挂钩。通过这些简单应用,大家可以了解AI,比如知道大语言模型在文字润色方面表现出色,但需要写合适的Prompt,并且要了解不同模型对Prompt的效果预期,清楚AI能做什么、不能做什么。
比如说2023年时,我们判断AI无法替代ERP等流程系统,因为当时的AI是概率模型,输出不可控,无法做到百分之百精准,至少当时在这个大屏上我们也看到这样的一个体系。那很多时候我们就会把现实中哪些环节是不需要百分之百精准的。把可以把这些场景搬过来。
对。所以会大家发现AI客服,包括头脑风暴,或者前期的这些材料。
对,就是一开始替代各种文科生的,这些赋能文科类工作的场景应用较多。当时对一些创意设计类工作,AI也有应用,因为这类工作没有绝对正确答案。
就像语文和数学,很少有人语文一直考满分,因为没有绝对正确答案,而数学能力强的人可以一直考满分,因为有精准答案。
所以在23年的时候,我们判断大量文科的场景,怎么去把它做赋能。到了24年的时候,随着AI Agent的一些落地,包括各种样的开源的框架。
你可以用一些单元模型去跟一些AI型的工作流各方面去做对话。发现它其实是可以把原来的一些流程做一个非常小的闭环。
比如说以前跟你们分享过那个订婚式的场景,你去定一个会议室,其实他是需要去不同的系统里面把这个打通,那有时候他也要理解你的这个意图,如果定明天他们下午几点钟的一个会议室,其实里面都是文字。
过去在系统里预订会议室,通常是点击选择楼层的会议室。但实际情况往往更复杂,涉及多个方面。比如有人希望预订能看海、靠窗的会议室,每个人可能都有类似的个性化诉求。然而,过去的会议室系统无法满足这些需求,也不可能实现这样的功能。
一般会议室会配有图片,我们可以通过图片查看会议室能容纳的人数、是否靠窗等信息。
但这样的搜索匹配过程比较耗费精力,即便记住这些信息也并非易事。如今,AI能够自动进行匹配,还能为每个会议室添加标签。甚至可以分析行政平面图,确定哪些会议室靠窗、看海或朝南,然后将其添加到用户的收藏夹中,用户无需再刻意记忆。之后,AI通过简单的API就能与会议系统打通。
这个过程看似简单,实际落地却困难重重。我们在2023年底就做出了这个场景,但当时准确率并不高,这难免让人感到失望。毕竟大模型连上万字的文章都能修改得像模像样,却在时间、地点、人物这些简单信息的识别上出错。例如,对于“下个月的第一个星期一的某一天”这样的时间描述,它总是判断错误。直到2024年10月左右,大模型才在某个环节实现了100%的准确率。
准确率达到100%,是因为大模型的推理能力提升了吗?
我推测有两个原因。
一是大模型可能调用了工具进行检验。比如让大模型计算数学题,它碰到数学问题就调用计算器,计算器得出的结果肯定是准确的,最后将结果返回。只要能精准地将用户意图拆解并调用合适的工具,准确率就能大幅提升。
就像预订下个月的会议室,调用日历工具就能准确确定日期。
二是大模型内置的一些模型可能进行了大量的优化训练和对齐。