比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

大数据文摘 · 公众号 · 大数据 · 2024-11-06 22:30

主要观点总结

文章介绍了苹果公司在产品交互上的进步，特别提到了其最新的用户界面交互模型Ferret-UI 2。该模型不仅能识别屏幕内容，还能理解用户指令和问题以执行任务或提供信息。文章还详细描述了Ferret-UI 2的创新点、主要优势、实现方法、数据集构建、模型架构、实验结果等。

Ferret-UI 2实现了更准确地识别和理解不同设备和操作系统上的UI元素，从而执行复杂的用户中心交互任务。其优势包括多平台支持、高分辨率自适应，以及支持更复杂的用户交互任务。

Ferret-UI 2的实现方法结合了自然语言处理和计算机视觉技术。研究团队构建了一个跨平台统一数据集来训练模型，数据集来自不同平台类型的数据组合，包括iPhone、Android、iPad、网页和Apple TV等。

Ferret-UI 2采用了创新的模型架构，结合了Any-Resolution方法和自适应N网格机制。实验结果表明，Ferret-UI 2在各类任务中的表现均优于先前的模型，尤其是在用户指向和定位任务中，其准确率显著提高。

支持更复杂的用户交互任务：Ferret-UI 2 不仅能执行基础点击和操作指令，还能理解更复杂的用户意图。模型能够根据用户的模糊指令做出准确响应。

不同于传统的基于坐标点击的操作方式，Ferret-UI 2能够根据用户的自然语言指令自动定位并执行相应的操作。

研究团队利用了GPT-4V生成训练数据，使得模型不仅能够识别UI元素，还能执行特定的操作，如滑动页面、填写表单和选择选项，提高了系统对界面元素之间空间关系的理解。

论文标题：《Multi-modal｜UI Understanding, Multi-round Reasoning SegmentationFerret-UI 2: Mastering Universal User Interface Understanding Across Platforms》

论文链接：http://arxiv.org/abs/2410.18967v1

模型地址：https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

为了训练一个强大的多平台UI理解模型，研究团队构建了自己的数据集，完整的数据集生成流程图如图2所示。

推荐文章

软件定义世界（SDX） · 谷歌CEO劈柴震撼预言：2030年AI直逼超人智能，80亿人认知被颠覆

昨天

数据派THU · 【ICML2025】解决3D语言高斯溅射中的视角依赖语义

昨天

数据派THU · 独家｜魔术背后：张量如何驱动变换器（Transformer）

昨天

国家数据局 · 数据标注优秀案例集之三十二 | 数据标注筑基高质量数据集

21 小时前

CDA数据分析师 · 《CDA一级教材》电子版上线CDA网校，助你轻松拿下一级考试！

5 天前

上海发布 · 【提醒】目前仍为重度污染，实时指数224

8 年前

半月谈 · 大凉山“悬崖村”：村民为什么不搬迁？

8 年前

懒人医学考试中心 · 【重磅】专、本、硕、博起薪分别是.......2017年应届生就业报告发布！

8 年前

C114通信网 · AT&T宣布下半年进行3GPP 5G NR标准首次测试

8 年前

PaperWeekly · 网络表示学习 | 实录·PhD Talk #09

7 年前