主要观点总结
本文主要介绍了手机厂商在AI时代推出的各种AI助手功能,如点咖啡、发红包等,并详细阐述了这些功能的实现原理。文章还讨论了AI手机与传统手机在数据获取方面的差异,以及手机生态的变革。同时,也提到了实现真正的AI手机所面临的问题和挑战。
关键观点总结
关键观点1: 手机厂商纷纷推出AI助手功能,如点咖啡、发红包等。
手机厂商通过视觉语言模型实现AI助手功能,通过识别屏幕内容来完成操作。
关键观点2: AI手机的实现原理主要依赖于视觉理解大模型的技术基础。
手机智能体通过视觉理解大模型“读懂”屏幕上的内容,并做出相应动作。
关键观点3: AI手机与传统手机在数据获取方面存在显著差异。
传统手机主要通过用户行为数据来学习,而AI手机则需要更多的生态数据来完善智能体。
关键观点4: 手机生态正在经历变革。
未来,手机系统的智能体可能与各应用之间的Agent进行握手通信,以更好地满足用户需求。
关键观点5: 实现真正的AI手机面临多个问题和挑战。
包括Agent间的通信协议、数据安全传输、系统架构重构等问题需要整个行业达成共识。
正文
2023年12月,智谱AI曾发表过一篇论文,名为
CogAgent: A Visual Language Model for GUI Agents
(《CogAgent:GUI 代理的可视化语言模型》)。
这篇论文提出了CogAgent模型,这是一种专注于GUI理解和导航的180亿参数视觉语言模型。它希望解决的问题是如何让大型视觉语言模型(VLM)更好地理解和导航图形用户界面(GUI),从而提高自动化水平。
可以说,Auto GLM是基于这项研究的产品化体现,让手机、PC等端侧设备,通过视觉语言模型,读懂手机界面,实现多步骤的连续和跨App的操作。
2024年2月,阿里巴巴也曾发布过一篇主题为Mobile- Agent的论文。主要解决如何在移动设备上实现自主的多模态代理,能够通过视觉感知和语义理解完成复杂的操作任务,并自主完成多步任务,且可以跨越多个App。
图:举例Mobile Agent自主打开天气预报软件,并跨越App,完成天气分析报告的过程
国外科技巨头也发布过类似的研究成果。2024年4月,苹果发表了一篇论文
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
(《Ferret-UI: 基于多模态LLMs的移动UI理解模型》),其中介绍了名叫Ferret UI的模型。
Ferret UI其实是建立在苹果于2023年10月就已经发布的Ferret模型之上,这个模型仅有7B和13B两个大小,是一个多模态模型。
和动辄上千亿参数规模的主流多模态大模型相比,他们实在是太小了,但是他们的专长是
识别图像具体区域和定位点,
这项能力甚至超过了当时最强大的多模态大模型GPT-4V。
苹果 AI / ML 研究科学家 Zhe Gan,当时在X上发布了一条推文称,Ferret可以“在一个图像中的任何地方、任何粒度上引用和定位任何事物”,它还可以使用图像中任何形状的区域来实现这一点。
图:苹果 AI / ML 研究科学家 Zhe Gan的推文
通俗来讲,这意味着Ferret模型能够识别图像中指定区域的元素,并将其精确框选。
例如,如果用户在图像中圈出一个物体并询问其种类,Ferret不仅能够识别出该物种,还能理解用户所指的特定动物或植物。讲到这里,是不是立刻就能联想到今年各大手机厂商纷纷推出的“圈搜”功能。
用户可以通过圈选屏幕上的内容,快速获取相关信息,支持跨应用服务,方便用户直接跳转到所需的应用或功能,比如荣耀手机支持“一圈即搜”功能的YOYO智能体;vivo提供了“小V圈搜”功能;OPPO的“小布助手”也具备相似的圈选功能。
而Ferret UI模型,就是将Ferret模型的能力应用在手机、PC等端侧交互界面,用户用自然语言下达命令,模型能够直接“读懂”屏幕上的内容——包括App图标、屏幕上的文字。Bechmark测试表明,在iPhone环境下,Ferret UI在初级UI任务中超越了GPT4-V,在包含高级任务的全任务平均得分非常相近,在安卓环境下表现略差。
图:在iPhone环境下,Ferret UI在初级UI任务中超越了GPT4-V,在包含高级任务的全任务平均得分非常相近,在安卓环境下表现略差
在2024年10月,苹果又发布了新的Ferret- UI 2模型,这次的升级点主要是跨平台的用户界面(UI)理解,实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意图,处理高分辨率的UI截图,并在多样化的设备生态系统中无缝扩展。
而苹果在操作系统上的最大对手谷歌,甚者更早就曾发布过相关的研究成果。2023年2月24日,谷歌的一篇论文主要提出了Spotlight——一种基于视觉语言的移动端UI理解方法。
它是一个纯视觉的移动UI理解模型,不依赖于视图层次结构数据,而是直接从原始像素中理解UI屏幕。采用了焦点区域抽取器(Focus Region Extractor)和区域总结器(Region Summarizer),使模型能够聚焦于屏幕上的特定区域,并生成基于ViT编码的屏幕区域的潜在表征。
图:谷歌Spotlight模型架构和用户界面任务示例的说明图
在3月19日,谷歌又发布了一个新的模型Screen AI,模型的大小还不到5B。它能够识别和理解UI元素和信息图表的内容,包括它们的类型、位置和相互之间的关系,并能生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。