专栏名称: 蚂蚁技术AntTech
分享蚂蚁集团的技术能力和技术文化。
目录
相关文章推荐
稀土掘金技术社区  ·  我在 pre 直接修改 bug,被领导批评了 ·  6 小时前  
腾讯技术工程  ·  腾讯的CMS管理系统能好用到什么程度 ·  18 小时前  
程序员的那些事  ·  余承东暗讽某大厂,雷军疑似回应“诋毁是仰望” ... ·  5 天前  
51好读  ›  专栏  ›  蚂蚁技术AntTech

顶会论文 | 蚂蚁&浙大提出MP-GUI算法:全方位增强MLLM的GUI理解能力

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-03-14 10:02

正文

请到「今天看啥」查看全文



以下

论文作者团队 对该论文的解读


在现代社会,图形用户界面(GUI)无处不在,无论是日常使用的手机应用,还是专业的计算机软件,都是人与系统交互的重要窗口,已成为不可或缺的一部分。近年来,多模态大型语言模型(MLLM)发展迅猛,在各领域任务中展现出了巨大潜力。然而,GUI与自然图像具有着本质的区别和特殊的挑战。GUI是人工精心设计的产物,其中的图形元素,如按钮、菜单、图标等,不仅内隐了特定的语义信息,还能够通过灵活的页面布局来传达高阶语义信号;另一方面,手机屏幕中存在大量且紧凑布局的UI元素,如文本、控件、图标、功能区等等。








请到「今天看啥」查看全文