不愁了！开源智能体Paper2Poster「一键生成」学术海报

机器之心 · 公众号 · AI · 2025-06-06 17:12

正文

图文交织。成功的海报离不开这些直观的视觉要素，因此模型必须读懂论文里的图片和对应文本，挑选出最重要的图表并匹配相应解说放进海报。也就是说，得让 AI 同时当文字编辑和美工。

版面布局规划：最终产出是一张定制尺寸的海报，这不像生成一篇纯文本摘要那么简单。模型需要考虑空间限制，合理安排多个内容板块的位置，保证阅读顺序和视觉平衡。如果布局失衡，不是文字挤出框，就是大片留白，那海报质量就大打折扣了。

正是因为以上这些挑战，过去虽然有人做自动幻灯片生成等工作，但自动生成学术海报几乎是空白。有了大模型的加持，Paper2Poster 团队才尝试向这一「无人区」发起冲击。

大模型怎么把论文变海报？PosterAgent 方法

解决这项任务，Paper2Poster 提出了一个名为 PosterAgent 的多模块多智能体方法。它不是让一个大模型闭门造车地「一口气生成」海报，而是模仿人类制作海报的流程，将任务拆解成多个智能体协作完成。整个系统采取自顶向下、视觉反馈循环的设计，如下图所示：

插图 2：Figure 2，PosterAgent 多智能体架构示意图。（a）Parser 解析论文，（b）Planner 生成布局，（c）Painter–Commenter 循环绘制和优化海报面板。

具体而言，PosterAgent 包含串行的三个阶段：

Parser（解析器） ——全局内容提炼。首先，PosterAgent 接收完整论文的 PDF。Parser 会利用文档解析工具将 PDF 转换为结构化文本，比如提取章节标题、段落内容和插图等信息，再借助 LLM 对文本进行分析归纳，生成论文的层次大纲和摘要。同时，它提取出论文中的图表等视觉素材，将图像和对应标题/说明整理出来。经过这一阶段，模型得到一个结构化的「素材库」，包含各章节的精简文字段落和相关联的图像素材。可以认为，Parser 完成了对原论文的粗提炼，把大而全的内容变成可管理的提纲。

Planner（规划器） ——版面布局规划。接下来，Planner 要决定哪些内容和图片上海报，以及如何摆放。它首先利用 LLM 将 Parser 输出的文本摘要和图像进行语义匹配，找出哪些图对应哪些段落内容，生成一组组（章节摘要，相关图片）对。然后，Planner 会采用一种二叉树版面布局算法：根据每个章节文本的字数多少、相关图片的尺寸等，递归地把海报页面划分为若干「板块」，为每个内容对分配一个矩形区域坐标，同时保证排版顺序符合阅读习惯，整体布局均衡美观。简单来说，Planner 相当于画好了海报的版面草图。接着在每个板块内，Planner 让 LLM 对对应的章节摘要进一步精简润色，提炼出层次清晰的要点列表（如 bullet points），这样既凸显重点又节省空间。经过 Planner 阶段，一张海报的内容规划基本成型：哪些板块放哪些文字图片、每块的大概位置和大小都确定了。

Painter–Commenter 循环（绘制器-评论员） ——面板绘制与视觉优化。有了布局规划，最后一步就是把它渲染成具体海报。这里采用「画家+评论家」的 AI 双角色循环： Painter 相当于美工，负责把每个板块的文字和图片转换成可执行的绘制代码（基于 python-pptx 库），生成海报板块的初始图像。然后， Commenter