正文
图文交织。成功的海报离不开这些直观的视觉要素,因此模型必须
读懂论文里的图片和对应文本,
挑选出最重要的图表并匹配相应解说放进海报。也就是说,得让 AI 同时当文字编辑和美工。
正是因为以上这些挑战,过去虽然有人做自动幻灯片生成等工作,但
自动生成学术海报
几乎是空白。有了大模型的加持,Paper2Poster 团队才尝试向这一「无人区」发起冲击。
大模型怎么把论文变海报?PosterAgent 方法
解决这项任务,Paper2Poster 提出了一个名为
PosterAgent
的多模块多智能体方法。它不是让一个大模型闭门造车地「一口气生成」海报,而是模仿人类制作海报的流程,将任务拆解成
多个智能体协作
完成。整个系统采取自顶向下、视觉反馈循环的设计,如下图所示:
插图 2:Figure 2,PosterAgent 多智能体架构示意图。(a)Parser 解析论文,(b)Planner 生成布局,(c)Painter–Commenter 循环绘制和优化海报面板。
具体而言,PosterAgent 包含串行的三个阶段:
-
Parser(解析器)
——全局内容提炼。首先,PosterAgent 接收完整论文的 PDF。Parser 会利用文档解析工具将 PDF 转换为结构化文本,比如提取章节标题、段落内容和插图等信息,再借助 LLM 对文本进行分析归纳,生成论文的
层次大纲和摘要
。同时,它提取出论文中的
图表
等视觉素材,将图像和对应标题/说明整理出来。经过这一阶段,模型得到一个结构化的「
素材库
」,包含各章节的精简文字段落和相关联的图像素材。可以认为,Parser 完成了对原论文的
粗提炼
,把大而全的内容变成可管理的提纲。
-
Planner(规划器)
——版面布局规划。接下来,Planner 要决定
哪些内容和图片上海报,以及如何摆放。
它首先利用 LLM 将 Parser 输出的文本摘要和图像进行
语义匹配
,找出哪些图对应哪些段落内容,生成一组组(章节摘要,相关图片)对。然后,Planner 会采用一种
二叉树版面布局算法
:根据每个章节文本的字数多少、相关图片的尺寸等,递归地把海报页面划分为若干「板块」,为每个内容对分配一个矩形区域坐标,同时保证排版顺序符合阅读习惯,整体布局
均衡美观
。简单来说,Planner 相当于画好了海报的版面草图。接着在每个板块内,Planner 让 LLM 对对应的章节摘要进一步
精简润色
,提炼出层次清晰的要点列表(如 bullet points),这样既凸显重点又节省空间。经过 Planner 阶段,一张海报的内容规划基本成型:哪些板块放哪些文字图片、每块的大概位置和大小都确定了。
-
Painter–Commenter 循环(绘制器-评论员)
——面板绘制与视觉优化。有了布局规划,最后一步就是把它
渲染成具体海报。
这里采用「画家+评论家」的 AI 双角色循环:
Painter
相当于美工,负责把每个板块的文字和图片转换成可执行的绘制代码(基于 python-pptx 库),生成海报板块的初始图像。然后,
Commenter