专栏名称: 蚂蚁技术AntTech
分享蚂蚁集团的技术能力和技术文化。
目录
相关文章推荐
老刘说NLP  ·  RAG&KG&LLM&文档智能四大领域技术前 ... ·  2 天前  
伯乐在线  ·  天塌了!全球最大成人网站 Pornhub ... ·  昨天  
伯乐在线  ·  天塌了!全球最大成人网站 Pornhub ... ·  昨天  
大淘宝技术  ·  大模型微调知识与实践分享 ·  昨天  
极客之家  ·  22k star,微软硬核开源,让 ... ·  3 天前  
51好读  ›  专栏  ›  蚂蚁技术AntTech

蚂蚁集团17篇论文被机器学习顶会ICLR 2025收录,其中一篇入选Spotlight

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-03-31 10:08

正文

请到「今天看啥」查看全文


优化问题广泛存在于各种场景中。然而,将以自然语言描述的优化问题进行形式化并求解通常需要高度专业化的人工经验,这在一定程度上阻碍了基于优化的决策方法的广泛应用。为了实现问题的自动化建模与求解,利用大语言模型(LLMs)已成为一种潜在的解决方案。然而,该方法仍面临优化泛化能力不足的问题,即现有基于LLM的方法在求解精度及可建模的优化问题类型的广泛性方面仍然存在局限性。


为此, 本文提出了一种统一的基于学习的框架——LLMOPT,以提升优化泛化能力 。LLMOPT 以优化问题的自然语言描述及预训练的大语言模型为起点,构建一种五要素问题表示形式,以此作为学习定义多种优化问题类型的通用模型。随后,LLMOPT采用多指令微(multi-instruction tuning)策略,以增强问题形式化及求解器代码生成的准确性与泛化性。此外,为防止大语言模型产生幻觉(hallucination),例如为避免执行错误而牺牲求解准确性,LLMOPT进一步引入模型对齐与自我纠正机制。


本文在涵盖健康、环境、能源、制造等约 20 个领域的六个真实世界数据集上,评估了 LLMOPT 及对比方法的优化泛化能力。实验结果表明, LLMOPT 能够建模多种优化问题类型,包括线性/非线性规划、混合整数规划以及组合优化等,并在求解准确性方面相较于现有最先进方法提升了 11.08%


代码已开源,详见:

https://github.com/caigaojiang/LLMOPT。





Animate-X: Universal Character Image Animation with Enhanced Motion Representation / 基于增强运动表征的通用角色图像动画化模型


收录类型: Poster


论文链接:

https://arxiv.org/pdf/2410.10306


论文来源: 蚂蚁集团独立完成


涉及领域: 视频生成,动画制作,通用卡通形象,姿态学习


论文摘要:

角色图像动画(Character image animation)可以通过参考图像和目标姿势序列生成高质量的视频,近年来取得了显著进展。然而,大多数现有方法仅适用于人类角色,通常无法很好地推广到像游戏和娱乐行业中常见的类人形角色(拟人的物体、动物等)。我们的深入分析表明,这一局限性可以归因于对运动建模的不足,无法理解驱动视频的运动模式,因此将姿势序列僵化地施加到目标角色上。


为此, 本文提出了Animate-X,这是一种基于LDM的通用动画框架,适用于各种角色类型(统称为X),包括人形角色 。为了增强运动表现,我们引入了Pose Indicator,它通过隐式和显式两种方式捕捉驱动视频中的全面运动模式。隐式方法利用CLIP的视觉特征提取驱动视频的运动要点,如整体运动模式和运动之间的时间关系,而显式方法则通过提前模拟推断过程中可能出现的输入,增强了LDM的泛化能力。此外,我们引入了一种新的动画人形基准(Animated Anthropomorphic Benchmark,A^2Bench)来评估Animate-X在通用和广泛适用的动画图像上的表现。 大量实验表明,Animate-X在性能和效果上优于最先进的方法。 方法已开源:

https://github.com/antgroup/animate-x,项目主页:https://lucaria-academy.github.io/Animate-X/


效果:

方法论:




Framer: Interactive Frame Interpolation / Framer:交互式视频插帧


收录类型: Poster


论文链接:

https://arxiv.org/pdf/2410.18978


论文来源: 蚂蚁集团研究型实习生


论文摘要:

我们提出了一种名为Framer的交互式帧插值方法,旨在根据用户的创意,在两张图像之间生成平滑过渡的帧。 具体而言,除了将起始帧和结束帧作为输入外,我们的方法还支持通过定制一些选定关键点的轨迹来个性化过渡过程。这种设计带来了两个明显的优点。首先,融入人类交互可以缓解从一张图像转换到另一张图像时可能出现的多种可能性问题,并且能够实现对局部运动更精细的控制。其次,作为最基础的交互形式,关键点有助于建立帧之间的对应关系,增强了模型处理复杂情况的能力(例如,起始帧和结束帧中的对象形状和风格不同)。值得注意的是,我们的系统还提供了一个“自动模式”,其中引入了一个模块来自动估计关键点并优化轨迹,从而简化实际使用。


广泛的实验结果表明, Framer在各种应用中表现出色,如图像变形、延时视频生成、卡通插值等。 为了促进进一步的研究,我们将代码、模型都已经开源。





Enhancing Document Understanding with Group Position Embedding: A Novel Approach to Incorporate Layout Information / 分组位置编码:一种提升大模型理解布局信息的新方法







请到「今天看啥」查看全文