正文
首先,Oryon CPU和此前的Adreno GPU、Hexagon NPU、Spectra ISP一样,由高通自主设计。自研CPU会有更充分的自主性和创新空间,就好像从头设计一个最完美的房子,而不是在别人已经盖好的毛坯上改造,后者显然将受到一定限制。
在此基础之上,全部自研的CPU、GPU、NPU可以实现效率更高、更流畅的相互配合。高通技术公司高级副总裁兼手机业务总经理 Christoper Patrick给到这样一个比喻:“我们设计的每个IP都是互补的,可以作为更大的异构计算系统的一部分协同工作。每一个IP都能在正确的时间奏出正确的音符,而正是所有这些IP的组合创造了美妙的交响乐”。
第二,这颗CPU在架构上也进行了巨大的改进:采用8核设计,包括
两
颗
超级内核
,主频高达4.32GHz,
这是目前手机SoC中最高的主频
。适合应对需要更快响应速度的密集型应用。缓存设计更是深度考虑了生成式AI对于手机内存和时延的高要求。从今年的趋势来看,3B左右的端侧模型常驻是旗舰安卓手机的基本盘,按照INT4量化来看,
对内存的占用量大概为2GB
。同时,用户在使用大模型的时候,反应过慢,也会大大折损体验,
这就需要尽可能的低时延。
Oryon CPU采用最大的缓存来增强每一个CPU丛集——每个丛集都拥有12MB的二级缓存,总计24MB紧密耦合的专用缓存是移动领域最大的缓存。在每个超级内核和性能内核中,还大幅提升了一级缓存。考虑到生成式AI高度依赖内存,高通还为骁龙8至尊版配备目前
最高速的LPDDR5
x
内存
。这些优化,都将有助于提升用户在使用端侧模型时的体验。
“高通Oryon CPU是一个强大的多任务处理单元,负责同时运行多个应用。它还负责启动所有AI工作负载,处理繁重负载任务,让AI引擎的其他组件可以专注于特定的AI任务。”
GPU的部分,骁龙8至尊版采用了新的Adreno切片架构,这颗Adreno GPU拥有1.1GHz的主频,相比上一代的900MHz也提频了。高通官方给出的数据(显示),全新架构的峰值性能提升40%,相同性能下的功耗降低了40%。
骁龙8至尊版上高通AI引擎提升了所有加速器内核的吞吐量,AI推理更快。与前代相比,其关键核心Hexagon NPU速度提升高达45%,
每瓦特性能提高45%。
这意味着,消耗同样的电量,能做更多的事情。
另外,这次骁龙峰会也推出了重新设计的AI-ISP,能够与NPU协同工作:高通将ISP吞吐量提高了近35%,能效提升高达25%。这意味着,用户可以利用多达三个4800万像素传感器同时进行拍摄。
以前,ISP会先处理图像,然后发送到NPU进行后处理。现在,处理管线将更加紧密配合。NPU可以直接访问RAW原生传感器数据,在4K 60fps下实现基于AI的实时增强。
有了像骁龙8至尊版这样性能强大的底层硬件支撑,就能打造所谓的端侧AI了吗?
从2023年开始,各大手机厂商包括苹果,都形成了一个共识,生成式AI的爆发,将给手机甚至整个消费电子行业带来巨大的变革。
安卓手机跑得比苹果更快,从2023年的下半年就开始在手机上加载端侧模型,并尝试一些简单的生成式AI功能,比如AI生成文本、图片等。但是,由于品牌众多,每个品牌希望侧重的场景与功能不同,安卓手机的“生成式AI功能”,看起来过于零散。对比整个世界对于生成式AI的巨大关注,这些功能也显得有些单薄。
并非是手机品牌思考不深入,而是因为,手机厂商们也面临着三个困境:1、在2023年,用当时的手机处理器去支撑一个百亿参数左右的端侧模型,还是有些吃力;2、大模型的能力本身有限,如果压缩为一个手机端能跑的更小规模模型,模型的表现就更差强人意;3、单独任意一个安卓手机厂商,都几乎不可能拥有覆盖硬件、软件、大模型训练的全面能力。而这些,都是打造端侧AI优质体验不可或缺的部分。
高通技术公司产品管理高级总监Siddhika Nevrekar在骁龙峰会现场强调,“仅凭硬件无法打造出强大的AI。这就好比一辆赛车,油箱里没有油也无济于事。”
今年,高通发布了骁龙8至尊版移动平台和AI Hub。开发者可以利用AI Hub在骁龙8至尊版上测试新AI模型,并通过高通Device Cloud开发AI体验。高通与多家模型厂商、集成商和runtime专家合作,帮开发者选择和优化适合他们应用和平台的AI模型。开发者只需几行代码,就能轻松集成这些模型到应用程序中。