专栏名称: 大淘宝技术
淘系技术官方账号
目录
相关文章推荐
伯乐在线  ·  499 美元的"爱国税"?特朗普 T1 ... ·  13 小时前  
伯乐在线  ·  499 美元的"爱国税"?特朗普 T1 ... ·  13 小时前  
腾讯技术工程  ·  鹅厂实习生血泪贴:Agent/RAG黑科技, ... ·  2 天前  
蚂蚁技术AntTech  ·  揭秘MCP生态中的「暗面」:Agent如何成 ... ·  2 天前  
蚂蚁技术AntTech  ·  蚂蚁交互智能实验室21篇论文入选CVPR2025 ·  3 天前  
51好读  ›  专栏  ›  大淘宝技术

淘宝内容AI团队2024年8篇论文总结

大淘宝技术  · 公众号  · 程序员  · 2024-12-30 19:00

正文

请到「今天看啥」查看全文




[2] MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis. In AAAI 2025.


中文标题:《MARS:基于混合自回归模型的图文联合生成方法》
作者:Wanggui He, Siming Fu, Mushui Liu, Xierui Wang, Wenyi Xiao, Fangxun Shu, Yi Wang, Lei Zhang, Zhelun Yu, Haoyuan Li, Ziwei Huang, LeiLei Gan, Hao Jiang
下载链接:
https://arxiv.org/abs/2407.07614


简介:自回归模型在语言生成领域取得了显著进展,它们采用next token predition的方式建模文本序列。为了构建统一的图文联合生成模型,即一个接受文本和图像输入和并同时能输出文本和图像的模型。我们将图片表示成离散token的形式,使得它可以像文本一样被预测。我们提出了MARS,这是一个新颖的在文本和图片两种模态上实现any2any范式的统一多模态生成模型。MARS通过创新性地集成了一个名为SemVIE的模块,该模块在预训练LLM的注意力机制中嵌入了视觉专家系统,旨在在保持NLP能力的同时,增强模型的视觉生成和理解能力。这种巧妙的集成赋予了MARS在T2I生成和图像-文本联合合成任务中更高的灵活性,并为其在更广泛任务中的应用奠定了基础。通过实施多阶段细化训练策略,MARS在遵循指令和生成高质量、细节丰富的图像方面的能力得到了显著提升。MARS在处理复杂自然语言输入方面表现出色,支持英文和中文的双语提示理解与执行。此外,MARS的SOTA性能已经通过MS-COCO基准测试、T2I-CompBench和人类评估等多样化的评估指标得到了充分验证。


[3] Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback. In AAAI 2025.


中文标题:《大型视觉语言模型中的幻觉的检测和缓解方法》
作者:Wenyi Xiao, Ziwei Huang, Leilei Gan, Wanggui He, Haoyuan Li, Zhelun Yu, Hao Jiang, Fei Wu, Linchao Zhu
下载链接:
https://arxiv.org/abs/2404.14233

简介:本文探讨了大型视觉语言模型(LVLMs)在生成响应时面临的幻觉现象,即生成内容与上下文不一致的问题。为了解决这一挑战,作者提出了一种通过细粒度AI反馈来检测和减轻幻觉的方法。具体而言,研究者生成了一个句子级别的幻觉标注数据集,训练了相应的检测模型,并提出了检测-重写流程以构建偏好数据集。此外,作者引入了幻觉严重性感知的直接偏好优化(HSA-DPO),优先减轻严重幻觉。实验结果表明,该方法在MHaluBench上达到了新的最高标准,超越了GPT-4V和Gemini,并在AMBER和Object HalBench上分别降低了36.1%和76.3%的幻觉率,显著提升了模型的准确性和可靠性。







请到「今天看啥」查看全文