正文
周三凌晨,美国科技巨头谷歌举行年度I/O开发者大会。谷歌公布了一个名为Project Mariner的项目,Project Mariner是一个用于网络的AI智能体,将于今年到来。该工具可以与操作浏览器和其他软件,Mariner 现在可以监督多达 10 个同时进行的任务,订阅用户可以将复杂规划和任务委托交给AI来完成。根据MarketsandMarkets预测,全球AI Agent市场将从2024年的51亿美元增长到2030年的471亿美元,年复合增长率达44.8%。上海证券表示,海内外AI Agent商业化持续演进,市场空间广阔。B端,微软、谷歌、Salesforce、Zoom、百度、阿里、腾讯、字节等持续加码,推动AI Agent商业化落地。C端,国内外Agent惊艳涌现。
摩根士丹利:预计2-3年内推动中国TO C市场AI应用的更快普及
日,摩根士丹利发布重磅研究报告《China – AI: The Sleeping Giant Awakens》。报告明确指出,中国将AI发展置于国家战略高度,旨在到2030年成为全球主要的AI创新中心,报告预计,届时中国AI产业核心规模预计将超过1万亿元人民币(约合1410亿美元),相关产业规模更将达到10万亿元人民币(约合1.4万亿美元)。报告将中国AI形容为“即将觉醒的巨人”,中国拥有除美国大型科技平台外最多的大语言模型和AI应用开发者,并维持着一个快速扩张和演进的AI生态系统 。在TO C领域,超级应用的普及以及新推出的AI原生应用,预计将在未来2-3年内推动中国TO C市场AI应用的更快普及。
AI已从巨头的“未来故事”变为财报中的增长引擎
又是一年财报季,AI毫无悬念成为互联网企业高频提及的关键词。腾讯和阿里巴巴的财报电话会上,两家公司的AI业务成了外界的关注重点——这不仅是两家中国互联网大厂的业绩汇报,也是观察中国AI产业发展的一扇窗口。一个是坐拥10亿级社交用户的流量帝国,一个是从电子商务公司转型而来的科技企业,两家公司基因与主营业务各异,但它们的财报数字都在表明:AI已从“未来故事”变为财报中的增长引擎。但细究两者的AI战略版图,阿里押注基础设施,以云为底座,通过开源降低行业门槛,撬动产业智能化;腾讯侧重应用层,通过社交、游戏等高流量场景快速验证AI价值,追求“用户侧可见”的体验升级。
慧辰股份携手棱镜极智能、晶隆智算共筑AI算力新生态 推动行业数智转型
近日,慧辰股份(688500)与北京棱镜极智能科技股份有限公司(棱镜极智能)、北京晶隆智算科技有限公司(晶隆智算)达成战略合作,三方聚焦AI算力基础设施建设与智能运营管理领域,联合研发 “统一算力运管服务平台”,旨在打造覆盖智算资源全生命周期的行业级解决方案,为AI应用创新与产业数智转型注入新动能。
山港海外、国联股份、迪拜华轮联营阿联酋海外仓投入试运行
近日,山港海外、国联股份、迪拜华轮联营的阿联酋海外仓投入试运行,三方将共同在迪拜杰贝阿里自贸区(JAFZA)运营总面积达5.5万平方米的智能化海外仓储中心。该海外仓旨在主要辐射中东非地区,为中国汽车装备企业出海提供全方位服务。
长沙市住建局领导调研中湘智造产业互联网发展情况
5月19日,长沙市住建局党组书记、局长张跃先一行调研公司产业互联网发展情况,集团党委委员、副总经理、首席质量官陈浩参加调研,公司党总支书记、董事长石拓,党总支委员、副总经理雷周,副总经理、董事会秘书易绍兴陪同调研。
《张亚勤:后ChatGPT时代,中国人工智能产业的机遇、5大发展方向与3个预测》
ChatGPT 是人类第一个
通过图灵测试的智能体
1981年8月12日,IBM公司推出了世界第一台采用了开放性架构的个人计算机PC 5150。1982年12月,这款PC登上了《时代》周刊的封面,并被评选为“年度人物”。约40年后,2022年11月30日,OpenAI正式发布了有史以来用户增长最快的消费级AI应用程序ChatGPT。2023年2月,ChatGPT也以“年度风云人物”的身份,出现在《时代》周刊的封面上。对此,我的感觉是,在AI发展历程中,一座新的丰碑出现了。
作为AI大模型强大能力的一种载体,ChatGPT可以说是将复杂技术简化为无门槛产品,进而为大众所广泛接受的标杆之作。
大模型的研发与迭代已有好几年,2020年GPT-3的诞生首度引发了全球级的破圈关注。尽管该模型被更多地提供给专业人士使用,但科技界内外确实也因这款明星产品而备受震撼。
2022年的岁末时分,ChatGPT一出场,就已经是一款能力较GPT-3更全面与强大的AI应用。ChatGPT在GPT-3.5的基础上经过了特别的优化与微调,更适合与人类进行自然语言对话。
ChatGPT一经推出,我就注册了账号,简单体验了一番。我的第一感觉是这个机器人做得太好了,虽然也会屡屡出现幻觉(Hallucination)等问题,但很明显,ChatGPT的语言能力极其出色。今天,这款AI应用的背后已是GPT-4o、OpenAI,与最初的版本相比,又有了明显的进步。
事实上,从GPT-3到GPT-3.5,中间经历了约两年的“漫长”时间,算法本身自然有很多改进。例如,InstructGPT(人工智能语言模型)和利用人类反馈来强化学习,都在很大程度上让AI得以更好地判断用户意图,进而给出更准确的答案。
但对我来说,ChatGPT带来的更大震撼是,它竟如此受欢迎——它在诞生两个月后,就成为历史上最快突破1亿用户的科技应用,简直像是科技界的泰勒·斯威夫特。在ChatGPT面世前的两年,生成式AI可谓进展最快的技术,比如在AI做图的赛道,就有DALL-E(美国图像生成系统)、MidJourney、Stable Diffusion(两者均为AI绘画工具)等“种子选手”在你追我赶。AIR团队也在研究生成式AI技术,例如,自动驾驶的仿真模拟就需要用到这一技术。总体来说,这个领域发展迅速,但似乎还谈不上技术质变与体验跃升。
然而,ChatGPT确实是一次质变与跃升,是AI概念诞生至今六十余年的一座里程碑。事实上,若是以麻省理工学院(MIT)的计算机科学家约瑟夫·维森鲍姆于1966年开发的聊天机器人程序Eliza(伊丽莎)为开端,计算机科学家对于人机对话的探索已进行半个多世纪。总体而言,进步很大,但一直未能出现实质性的飞跃。在ChatGPT发布前,聊天机器人主要应用于聊天、客服等垂直领域,整体感觉更像是简单的工具或无聊时的玩具,常常答非所问,被用户戏称为“人工智障”,这类聊天机器人前辈想要通过图灵测试,显然难如登天。ChatGPT则是第一个可以通过图灵测试的智能体,我在它的身上看到了通用人工智能的雏形。
2016年,AlphaGo在围棋领域表现出的统治力首次将AI的可怕潜能展示于世人面前。当时,无论是人脸识别技术还是语音识别与合成技术都已相当成熟,但能够将AI的诸多能力整合到一个应用、一个界面的明星产品暂未出现,因此许多人对AI的印象依然比较刻板,觉得AI能做的事情不多。自动驾驶给人的感觉非常酷,但它是牵一发而动全身的火种般的项目,因而其实用化推进始终比较慢,直到今天也未变成为亿万国民所普遍认可的主流新业态。对于那时就已经开始集成AI成果的应用率较高的搜索,用户的体会也并不深刻。
总之,在2016年那个时间节点,大多数普通人感受不到AI给生活带来了什么改变。直到6年后,ChatGPT横空出世,尝鲜者惊喜地发现,可以直接与AI展开有价值的对话了。屏幕对面回应你问题的那个家伙就像一个万事通,什么都知道。通常情况下,它不会像那些自诩智能的前辈那样,给出与提问意图南辕北辙的回答,更不会自作聪明地绕开问题、生硬地将话题转向不相干的方向……虽然ChatGPT偶尔也会发神经、说胡话,有时还说废话和囫囵话,但人不也会这样吗?而且,它在很多方面做得比普通人要好,比如,能写出顺畅的文案,语法挑不出毛病,还能帮助用户写程序、规划任务,等等。其表现足以证明,在认知层面,AI的性能实现了空前的提升,甚至让人看到了通用人工智能的影子。
全世界的计算机科研工作者都在探索,哪条技术路线通往真正的通用人工智能。GPT-3的诞生,让不少人意识到,大数据和超大模型可能是一个正确的方向;而后继者ChatGPT和GPT-4的不俗表现,让大家对这条路线的信心更加坚定。规模效应极其重要,特别是上下文学习/情境学习(In-context Learning)等学习方式,使模型能够越来越快地适应新的任务。当用于训练AI的数据规模不大时,效果还不明显;但规模达到一定程度后,就可能产生一些超出设计者预期的现象或能力,涌现得以发生——就像一堆沙子里突然有一座沙堡拔地而起。
以GPT系列为代表的大模型正在重塑IT行业的结构。
如下图所示,新结构的底层仍旧是云,可能配备了数以万计的GPU或XPU(极限处理器),它们构成了算力基石。往上一层是经典的IaaS层(Infrastructure as a Service,基础设施即服务,包括了计算、存储、网络、数据、安全等)。再往上是基础模型层(Foundational Model),又称MaaS层(Model as a Service,模型即服务)。在此之上有许多VFM(Vertical Foundational Model,垂直基础模型),比如,用于自动驾驶、蛋白质解析、智能教育、具身智能的,难以计数。而且,这些垂直基础模型并非相互孤立、彼此隔绝,而是可以相互结合、形成对用户价值更高的应用——SaaS(Software as a Service,软件即服务)。
在这样的结构下,对于AI大模型时代的竞争者而言,似乎每一层都意味着崛起的机遇。理论上当然是这样,然而对那些资源不充分和实力不够强的企业来说,无论是在算力层、基础设施层还是在基础模型层,获得成功的概率都不太高——因为有门槛,并且难跨越。事实上,
大多数创新风口应该会出现在垂直基础模型层及其上的SaaS层。
不仅如此,要想在部署端(智能手机、PC、物联设备、智能汽车和机器人等)加入AI的能力,就需要为边缘定制模型,在这方面有很多工作待完成。况且,具体到部署端,模型并不是越大越好,而是越小越快越好。比如,当我们把大模型的能力迁移到无人驾驶的汽车里,首先要解决的问题是可靠与精确——让AI能够在最短的时间内对交通状况做出最佳的判断,延时越短,效果就越好,而不是赋予驾车的AI以写诗作曲、生成影像的功能。
我的判断是,
在大模型时代,边缘的机会非常大,也非常多。所以,我们有不少正在推进中的边缘计算、边缘模型、模型交互、联邦学习与小模型的项目。
一些国外公司正在瞄准AI操作系统的机遇发力攻关,百度、阿里巴巴、腾讯、字节跳动、华为等有底蕴、有远见的本土巨擘也在此领域布局。哪怕是初创公司,倘若能够获得百亿级的投资,也可以尝试探索一番,OpenAI就是这么成长起来的。但我觉得,有想法的企业还是应该量力而行,不应该看到风口便往上扑,一窝蜂似的去做操作系统层。就像在移动互联网时代,iOS和Android固然发展得很好,但显然应用层催生了更多的超级玩家,如今日头条和TikTok、微信和淘宝。大模型时代也是如此。
在大模型时代,操作系统一家独大的可能性不大。因AI而生的App可以接入不同的系统,结合不同的基础大模型。
所以,与其临渊羡鱼,不如多观察、多思考模型和模型之间的互动,以及怎样更好地跨模型工作,怎样在模型里收集知识,进而将其转化为自身的产品优势。
一个积极的变化是,以往开发任何应用都需要大规模的数据,现在依托预训练模型,数据的调用已不成问题,因而每个企业只需要结合自己的专有数据做精调训练(Fine Tuning)和提示工程(Prompt Engineering),就能以比过去更少的投入获得更好的反馈与更高的回报。
总之,新时代的信息技术从业者可能会发现,有更多有趣的工作等着自己去完成。一切的改变始于ChatGPT。它的成功加速了整个行业生态的转变,带来了新范式的启示。其影响才刚刚开始。
像GPT系列这样的大模型技术将持续向前演进,与其技术原理相近的平台、系统预计也将不断出现。在经历了投资者评估与市场考验之后,大浪淘沙,余下少数几家由幸存者升格为统治者。
由于地域的区别、政策的限定,中国也会有自己的大模型及杀手级应用,它们会逐步成长为新的操作系统。这样的演变与云计算从萌芽到壮大的过程如出一辙。
经常使用ChatGPT的国内用户会发现,它的中文交互表现相当出色,这一点十分有趣。Transformer模型起初被设计用来解决序列到序列的任务,如机器翻译,训练它的时候就使用了各种不同的语言。其后,Transformer模型在语言映射之间找到了结构,学会了语法和语义。这说明,用于训练模型的语言语种越多,其效果可能就越好。因此,做中文大模型时,最好别让训练原料局限于中文,加入更多的语种很有必要。
据2023年6月国际数据公司(IDC)发布的报告,全球每一年产生的数据量大约是上一年的1.26倍,增长速度超出了摩尔定律。其中大部分数据可能由非中文语种产生,但我认为,这对于训练中文大模型来说,现在乃至以后都不算是限制。原因有两个方面:一是我们可以用英文及其他语种的数据来训练中文大模型;二是用于训练大模型的数据远不止文本,还包括视频、语音等多模态数据。不久,不只是源自信息世界的数据,物理世界(自动驾驶车辆、机器人、边缘设备、各种工业设施等),生物世界(基因组学、细胞组学、人类的大脑器官等)的各种数据都可以转变为Token(词元),供AI持续学习。甚至某天,研究人员将各种气息、味道、触感进行数据化后喂给AI,强化其能力。
想象一个线下社交场合,人和人之间交换信息的方式固然以对话为主,但视、听、嗅、味、触五感产生的信息量或许更大。另外,现在绝大部分被纳入统计的数据是由人类和各种机器、传感器产生的数据,这些只是浮在海面上的冰山一角,物理世界中还有更多数据暂时处于海面以下。比如,每位驾驶员、每辆车每天产生的数据都是TB级别的,生物世界的数据量级只会更高。也就是说,数据量绝不会成为训练中文大模型的瓶颈。
比获取数据更重要的是怎样用好数据。
ChatGPT的表现如此优异,有一个重要原因是研发团队对边际工作给予了高度重视,如数据清洗、半监督学习等。团队不仅在技术层面及时调试、优化,还雇用了很多人对数据做各种标注,再加上纳入了人类反馈的强化学习——相当于我们与ChatGPT的每轮对话都能让它变得更聪明。所以,
除了保障用于模型训练的算力、数据和算法,边际环节也很重要。
今天,在围绕AI展开的新一轮科技长跑的进程中,中国科技界与“世界顶尖”之间的差距可能更多地体现在高端计算芯片、算法系统和一些大的平台级技术方面。但我觉得,
国内的科研人员、创业者和工程师,一旦集中资源、保持耐心、认真做事,就有机会追赶上别人。
值得注意的还包括,在生成式AI刚刚在产业内外引发极大关注的阶段,美国很快便出现了针对大众用户的实用化产品,如DALL-E、Midjourney、Cursor、Pika、Suno AI等垂直类应用,这些应用从上线到获客、实现营收的路径都很短。
中国目前有很多聚焦生成式AI机遇的新创公司,而且风险投资行业、高科技企业也在紧密关注着新的风向。
这一领域的大多数创新遵循两种模式,一是做横向的基础模型,二是做行业的垂直模型。