专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  太好了! Claude Code ... ·  21 小时前  
黄建同学  ·  v0 这个看起来真不错!调 UI ... ·  3 天前  
51好读  ›  专栏  ›  机器之心

不愁了!开源智能体Paper2Poster「一键生成」学术海报

机器之心  · 公众号  · AI  · 2025-06-06 17:12

正文

请到「今天看啥」查看全文


图文交织。成功的海报离不开这些直观的视觉要素,因此模型必须 读懂论文里的图片和对应文本, 挑选出最重要的图表并匹配相应解说放进海报。也就是说,得让 AI 同时当文字编辑和美工。


  • 版面布局规划:最终产出是一张定制尺寸 的海报,这不像生成一篇纯文本摘要那么简单。模型需要考虑 空间限制 ,合理安排多个内容板块的位置,保证 阅读顺序 视觉平衡 。如果布局失衡,不是文字挤出框,就是大片留白,那海报质量就大打折扣了。


正是因为以上这些挑战,过去虽然有人做自动幻灯片生成等工作,但 自动生成学术海报 几乎是空白。有了大模型的加持,Paper2Poster 团队才尝试向这一「无人区」发起冲击。


大模型怎么把论文变海报?PosterAgent 方法


解决这项任务,Paper2Poster 提出了一个名为 PosterAgent 的多模块多智能体方法。它不是让一个大模型闭门造车地「一口气生成」海报,而是模仿人类制作海报的流程,将任务拆解成 多个智能体协作 完成。整个系统采取自顶向下、视觉反馈循环的设计,如下图所示:


插图 2:Figure 2,PosterAgent 多智能体架构示意图。(a)Parser 解析论文,(b)Planner 生成布局,(c)Painter–Commenter 循环绘制和优化海报面板。


具体而言,PosterAgent 包含串行的三个阶段:


  • Parser(解析器) ——全局内容提炼。首先,PosterAgent 接收完整论文的 PDF。Parser 会利用文档解析工具将 PDF 转换为结构化文本,比如提取章节标题、段落内容和插图等信息,再借助 LLM 对文本进行分析归纳,生成论文的 层次大纲和摘要 。同时,它提取出论文中的 图表 等视觉素材,将图像和对应标题/说明整理出来。经过这一阶段,模型得到一个结构化的「 素材库 」,包含各章节的精简文字段落和相关联的图像素材。可以认为,Parser 完成了对原论文的 粗提炼 ,把大而全的内容变成可管理的提纲。

  • Planner(规划器) ——版面布局规划。接下来,Planner 要决定 哪些内容和图片上海报,以及如何摆放。 它首先利用 LLM 将 Parser 输出的文本摘要和图像进行 语义匹配 ,找出哪些图对应哪些段落内容,生成一组组(章节摘要,相关图片)对。然后,Planner 会采用一种 二叉树版面布局算法 :根据每个章节文本的字数多少、相关图片的尺寸等,递归地把海报页面划分为若干「板块」,为每个内容对分配一个矩形区域坐标,同时保证排版顺序符合阅读习惯,整体布局 均衡美观 。简单来说,Planner 相当于画好了海报的版面草图。接着在每个板块内,Planner 让 LLM 对对应的章节摘要进一步 精简润色 ,提炼出层次清晰的要点列表(如 bullet points),这样既凸显重点又节省空间。经过 Planner 阶段,一张海报的内容规划基本成型:哪些板块放哪些文字图片、每块的大概位置和大小都确定了。

  • Painter–Commenter 循环(绘制器-评论员) ——面板绘制与视觉优化。有了布局规划,最后一步就是把它 渲染成具体海报。 这里采用「画家+评论家」的 AI 双角色循环: Painter 相当于美工,负责把每个板块的文字和图片转换成可执行的绘制代码(基于 python-pptx 库),生成海报板块的初始图像。然后, Commenter






请到「今天看啥」查看全文