微软新作，ImageBERT虽好，千万级数据集才是亮点

AI科技评论 · 公众号 · AI · 2020-02-03 15:21

正文

请到「今天看啥」查看全文

在语义上是否相关。用这个模型从十亿规模的image-text 对中过滤掉相关性不高的数据，从而生成的数据集LAIT（"],[20,"Large-scale weAk-supervised Image-Text），其中包含了一千万张图片，图片描述的平均长度为13个字。","27:\"10\""],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/u3awaRh8G8wYYga8.png!thumbnail"},"29:0|30:0|3:\"1036\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"360\"|ori-width:\"1036\""],[20,"\nLAIT数据集中的样本"],[20,"\n","7:1"],[20,"\n\n4、"],[20,"ImageBERT","27:\"12\""],[20,"模型"],[20,"\n","32:2"],[20,{"gallery":"https://uploader.shimo.im/f/PZ5V0YZq89Q21jEI.png!thumbnail"},"29:0|30:0|3:\"1424\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"682\"|ori-width:\"1424\""],[20,"\n \n如上图所示，"],[20,"ImageBERT模型的总体架构和BERT类似，都采用了","27:\"12\"|31:2"],[20,"Transformer作为最基础的架构。不同之处在于将图像视觉的标记和问题标注作为输入。注意其中图像视觉标记是从Faster-RCNN模型提取的ROL特征。\n\n通过一层嵌入层将文本和图像编码成不同的嵌入，然后将嵌入传送到多层双自我注意Transformer中来学习一个"],[20,"跨模态","27:\"12\"|31:2"],[20," Transformer，从而对视觉区域和文字标记之间的关系进行建模。\n\n1）嵌入建模"],[20,"\n","32:3"],[20,"\n整个嵌入建模分为三个部分：语言嵌入、图像嵌入、序列位置和片段嵌入。\n\n在语言嵌入模块中采用了与BERT相似的词预处理方法。具体而言，是用WordPiece方法将句子分成（标记）n个子词{w0,...,wn-1}。一些特殊的标记，例如CLS和SEP也被增添到标记的文本序列里。每个子词标记的最终嵌入是通过组合其原始单词嵌入、分段嵌入和序列位置嵌入来生成的。\n\n与语言嵌入类似，图像嵌入也是通过类似的过程从视觉输入中产生的。用Faster-RCNN从 o RoIs中提取特征（记为{r0,...ro-1}），从图像中提取特征，从而让这两个特征代表视觉内容。检测到的物体对象不仅可以为语言部分提供整个图像的视觉上下文（visual contexts），还可以通过详细的区域信息与特定的术语相关联。另外，还通过将对象相对于全局图像的位置编码成5维向量来向图像嵌入添加位置嵌入。5维向量表示如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/YnAdrOfmNGUnEDcr.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n\n\n其中，(xtl,ytl)以及(xbr,ybr)分别代表边界框的左上角和右下角坐标。5维向量中的第五个分向量相对于整个图像的比例面积。\n"],[20,{"gallery":"https://uploader.shimo.im/f/axgNGmzCE98UmvTl.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n另外，物体特征和位置嵌入都需要通过语言嵌入投影到同一维度。e(i)代表每个图像的RoI。其计算通过加总对象嵌入、分段嵌入、图像位置嵌入以及序列位置嵌入获得。这意味着每个嵌入被投影到一个向量之中，然后用同样的嵌入大小作为Transformer 隐藏层的尺寸，最后采用正则化层。\n\n在序列位置和片段嵌入中，因为没有检测到Rol的顺序，所以其对所有的视觉标记使用固定的虚拟位置，并且将相应的坐标添加到图像嵌入中。\n\n2）多阶段预训练"],[20,"\n","32:3"],[20,"\n不同的数据集来源不同，所以其数据集质量也就不同。为了充分利用不同类型的数据集，作者提出了多阶段预训练框架。如下图所示。\n"],[20,{"gallery":"https://uploader.shimo.im/f/6Ff04ZARTgwDTdoQ.png!thumbnail"},"29:0|30:0|3:\"1297\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"434\"|ori-width:\"1297\""],[20,"\n\n其主要思想是先用大规模域外数据训练预先训练好的模型，然后再用小规模域内数据训练。在多阶段预训练中，为了有顺序地利用不同种类的数据集，可以将几个预训练阶段应用到相同的网络结构。\n\n更为具体的，在ImageBERT模型中使用两阶段的预训练策略。第一个阶段使用LAIT数据集，第二个阶段使用其他公共数据集。注意，两个阶段应使用相同的训练策略。\n\n3）预训练任务"],[20,"\n","32:3"],[20,"\n在模型预训练过程中，设计了四个任务来对语言信息和视觉内容以及它们之间的交互进行建模。四个任务分别为：掩码语言建模（Masked Language Modeling）、掩码对象分类（Masked Object Classification）、掩码区域特征回归（Masked Region Feature Regression）、图文匹配（Image-Text Matching）。\n\n掩码语言建模简称MLM，在这个任务中的训练过程与BERT类似。并引入了负对数似然率来进行预测，另外预测还基于文本标记和视觉特征之间的交叉注意。\n\n掩码对象分类简称MOC，是掩码语言建模的扩展。与语言模型类似，其对视觉对象标记进行了掩码建模。并以15%的概率对物体对象进行掩码，在标记清零和保留的概率选择上分别为90%和10%。另外，在此任务中，还增加了一个完全的连通层，采用了交叉熵最小化的优化目标，结合语言特征的上下文，引入负对数似然率来进行预测正确的标签。\n\n掩码区域特征回归简称MRFR，与掩码对象分类类似，其也对视觉内容建模，但它在对象特征预测方面做得更精确。顾名思义，该任务目的在于对每个掩码对象的嵌入特征进行回归。在输出特征向量上添加一个完全连通的图层，并将其投影到与汇集的输入RoI对象特征相同的维度，然后应用L2损失函数来进行回归。\n\n值得注意的是，上述三个任务都使用条件掩码，这意味着当输入图像和文本相关时，只计算所有掩码损失。\n\n在图文匹配任务中，其主要目标是学习图文对齐（image-text alignment）。具体而言对于每个训练样本对每个图像随机抽取负句（negative sentences），对每个句子随机抽取负图像（negative images），生成负训练数据。在这个任务中，其用二元分类损失进行优化。\n\n4）微调任务"],[20,"\n","32:3"],[20,"\n经过预训练，可以得到一个“训练有素”的语言联合表征模型，接下来需要对图文检索任务模型进行微调和评估，因此本任务包含图像检索和文本检索两个子任务。图像检索目的是给定输入字幕句能够检索正确的图像，而图像文本检索正好相反。经过两个阶段的预训练后，在MSCoCO和Flickr30k数据集上对模型进行了微调，在微调过程中，输入序列的格式与预训练时的格式相同，但对象或单词上没有任何掩码。另外，针对不同的负采样方法提出了两个微调目标：图像到文本和文本到图像。\n\n为了使得提高模型效果，还对三种不同的损失函数进行了实验，这三种损失函数分别为：二元分类损失、多任务分类损失、三元组损失（Triplet loss）。关于这三种微调损失的组合研究，实验部分将做介绍。\n5、实验"],[20,"\n","32:2"],[20,"针对图像-文本检索任务，作者给出了零样本结果来评估预训练模型的质量和经过进一步微调后的结果。下面是在 MSCOCO 和Flickr30k 数据集的不同设置下，对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。\n\n1）评估预训练模型\n如前面所提到，模型经过了两次预训练。首先是在 LAIT 数据集上，采用从基于BERT 的模型初始化的参数对模型进行了预训练；然后又在公开数据集（Conceptual Captions， SBU Captions）上对模型进行二次预训练。具体过程和实验设置请参考论文。\n\n在没有微调的情况下，作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估，如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/Rienmu44ALE7yCQ7.png!thumbnail"},"29:0|30:0|3:\"1844\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"616\"|ori-width:\"1844\""],[20,"\n\n零样本结果如表 1 所示，我们可以发现，ImageBERT预训练模型在MSCOCO 获得了新的最佳结果，但在Flickr30k数据集上却比 UNITER模型的表现稍差。\n\n在微调后，ImageBERT模型获得了有竞争力的结果，相关情况在表2 部分进行说明。值得一提的是，"],[20,"相比于其他仅有一个预训练阶段的方法，这种多阶段的预训练策略在预训练期间学到了更多有用的知识，因而能够有助于下游任务的微调阶段。","0:\"%23ff0000\""],[20,"\n\n2）评估微调模型\n\n在检索任务上微调后的最终结果如表2 所示。我们可以看到，ImageBERT模型在Flickr30k 和 MSCOCO（同时在 1k和 5k的测试集）上都实现了最佳表现，并且超越了所有的其他方法，从而证明了"],[20,"本文所提的面向跨模态联合学习的 LAIT 数据和多阶段预训练策略的有效性。","0:\"%23ff0000\""],[20,"\n\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/5Mr3cg6zLXoHjL9J.png!thumbnail"},"29:0|30:0|3:\"1830\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"834\"|ori-width:\"1830\""],[20,"\n\n\n\n3）消融实验"],[20,"\n","32:3"],[20,"\n作者也在 Flickr3k 数据集上对预训练数据集的不同组合、全局视觉特征的显示、不同的训练任务等进行了消融实验，以进一步研究ImageBERT模型的架构和训练策略。\n\n"],[20,"预训练数据集","8:1"],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/WqfWH0ACCs4dutlK.png!thumbnail"},"29:0|30:0|3:\"1358\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"478\"|ori-width:\"1358\""],[20,"\n\n作者使用不同数据集的组合来进行预训练实验。结果如表3所示。 CC表示的仅在 Conceptual Captions 数据集上进行预训练；SBU 表示仅在 SBU Captions数据集上进行预训练；LAIT+CC+SBU表示使用LAIT, Conceptual Caption 和 SBU Captions的组合数据集进行预训练；LAIT → CC+SBU 表示使用 LAIT 来完成第一阶段的预训练，之后使用 Conceptual Captions和SBU Captions 数据集来做第二阶段的预训练。\n\n可以看到，"],[20,"用多阶段的方法来使用三种不同的域外数据集，获得了比其他方法明显更好的结果。","0:\"%23ff0000\""],[20,"\n\n"],[20,"全局图像特征","8:1"],[20,"\n"],[20,{"gallery":"https://uploader.shimo.im/f/DJatGrExJew2kTDn.png!thumbnail"},"29:0|30:0|3:\"1862\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"888\"|ori-width:\"1862\""],[20,"\n\n值得注意的是，检测的ROIs可能并不包含整个图像的所有信息。因此，作者也尝试将全局图像特征添加到视觉部分。文章使用了三个不同的CNN 模型（DenseNet，Resnet， GoogleNet）从输入图像上提取全局视觉特征，然而却发现并非所有的指标都会提高。结果如表4的第1部分所示。\n\n"],[20,"预训练损失","8:1"],[20,"\n\n作者也将由UNITER引起的MRFR损失添加到预训练中，结果在零样本结果上获得略微提高，结果如表4 的第2 部分所示。这意味着"],[20,"增加一个更难的任务来更好地对视觉内容进行建模，有助于视觉文本联合学习。","0:\"%23ff0000\""],[20,"\n\n"],[20,"图像中的目标数量 (RoIs)","8:1"],[20,"\n\n为了理解ImageBERT模型的视觉部分的重要性，作者基于不同的目标数量进行了实验。如表4的第4部分所示，ImageBERT模型在目标最少（目标数量与"],[20,"ViLBERT一样","27:\"10\""],[20,"）的情况下，在检索任务上并没有获得更好的结果。\n可以得出结论，更多的目标确实能够帮助模型实现更好的结果，因为更多的 RoIs 有助于理解图像内容。\n\n"],[20,"微调损失","8:1"],[20,"\n针对在第4部分所提到的三项损失，作者尝试在微调期间进行不同的组合。如表4的第4 部分所示，模型通过使用二元交叉熵损失（Binary Cross-Entropy Loss），本身就能在图像-文本检索任务上获得最佳的微调结果。\n\n6、评论"],[20,"\n","32:2"],[20,"据AI科技评论了解，事实上ImageBERT模型与以前的视觉-语言模型（例如ViLBERT、VL-BERT、UNITER、LXMERT等）相比，模型本身区别并不是很大。\n\n但值得重视的是他们收集的一个新的数据集，这个数据集在数量上是目前最大的vision-language数据集；另外他们进行了两步的预训练（首先是在LAIT进行预训练，然后是在Conceptual Caption进行预训练）。这两点使他们获得了还不错的性能。不过这篇文章仅对图像检索任务进行了测试，而没有进行例如Captioning, VQA, VCR, grounding等视觉-语言任务的实验。\n\n有趣的一点是，这篇文章在一定程度上表明了，预训练中数据集的顺序对性能有很大的影响。\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n"]]" style="caret-color: rgb(0, 0, 0); text-align: start; text-size-adjust: auto; color: rgb(51, 51, 51); letter-spacing: 0.5px; font-size: 15px;">基于语言模型的BERT，可以使用无限的自然语言文本，例如BooksCorpus或Wikipedia；与之不同，跨模态的预训练需要大量且高质量的vision-language对。

在语义上是否相关。用这个模型从十亿规模的image-text 对中过滤掉相关性不高的数据，从而生成的数据集LAIT（"],[20,"Large-scale weAk-supervised Image-Text），其中包含了一千万张图片，图片描述的平均长度为13个字。","27:\"10\""],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/u3awaRh8G8wYYga8.png!thumbnail"},"29:0|30:0|3:\"1036\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"360\"|ori-width:\"1036\""],[20,"\nLAIT数据集中的样本"],[20,"\n","7:1"],[20,"\n\n4、"],[20,"ImageBERT","27:\"12\""],[20,"模型"],[20,"\n","32:2"],[20,{"gallery":"https://uploader.shimo.im/f/PZ5V0YZq89Q21jEI.png!thumbnail"},"29:0|30:0|3:\"1424\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"682\"|ori-width:\"1424\""],[20,"\n \n如上图所示，"],[20,"ImageBERT模型的总体架构和BERT类似，都采用了","27:\"12\"|31:2"],[20,"Transformer作为最基础的架构。不同之处在于将图像视觉的标记和问题标注作为输入。注意其中图像视觉标记是从Faster-RCNN模型提取的ROL特征。\n\n通过一层嵌入层将文本和图像编码成不同的嵌入，然后将嵌入传送到多层双自我注意Transformer中来学习一个"],[20,"跨模态","27:\"12\"|31:2"],[20," Transformer，从而对视觉区域和文字标记之间的关系进行建模。\n\n1）嵌入建模"],[20,"\n","32:3"],[20,"\n整个嵌入建模分为三个部分：语言嵌入、图像嵌入、序列位置和片段嵌入。\n\n在语言嵌入模块中采用了与BERT相似的词预处理方法。具体而言，是用WordPiece方法将句子分成（标记）n个子词{w0,...,wn-1}。一些特殊的标记，例如CLS和SEP也被增添到标记的文本序列里。每个子词标记的最终嵌入是通过组合其原始单词嵌入、分段嵌入和序列位置嵌入来生成的。\n\n与语言嵌入类似，图像嵌入也是通过类似的过程从视觉输入中产生的。用Faster-RCNN从 o RoIs中提取特征（记为{r0,...ro-1}），从图像中提取特征，从而让这两个特征代表视觉内容。检测到的物体对象不仅可以为语言部分提供整个图像的视觉上下文（visual contexts），还可以通过详细的区域信息与特定的术语相关联。另外，还通过将对象相对于全局图像的位置编码成5维向量来向图像嵌入添加位置嵌入。5维向量表示如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/YnAdrOfmNGUnEDcr.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n\n\n其中，(xtl,ytl)以及(xbr,ybr)分别代表边界框的左上角和右下角坐标。5维向量中的第五个分向量相对于整个图像的比例面积。\n"],[20,{"gallery":"https://uploader.shimo.im/f/axgNGmzCE98UmvTl.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n另外，物体特征和位置嵌入都需要通过语言嵌入投影到同一维度。e(i)代表每个图像的RoI。其计算通过加总对象嵌入、分段嵌入、图像位置嵌入以及序列位置嵌入获得。这意味着每个嵌入被投影到一个向量之中，然后用同样的嵌入大小作为Transformer 隐藏层的尺寸，最后采用正则化层。\n\n在序列位置和片段嵌入中，因为没有检测到Rol的顺序，所以其对所有的视觉标记使用固定的虚拟位置，并且将相应的坐标添加到图像嵌入中。\n\n2）多阶段预训练"],[20,"\n","32:3"],[20,"\n不同的数据集来源不同，所以其数据集质量也就不同。为了充分利用不同类型的数据集，作者提出了多阶段预训练框架。如下图所示。\n"],[20,{"gallery":"https://uploader.shimo.im/f/6Ff04ZARTgwDTdoQ.png!thumbnail"},"29:0|30:0|3:\"1297\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"434\"|ori-width:\"1297\""],[20,"\n\n其主要思想是先用大规模域外数据训练预先训练好的模型，然后再用小规模域内数据训练。在多阶段预训练中，为了有顺序地利用不同种类的数据集，可以将几个预训练阶段应用到相同的网络结构。\n\n更为具体的，在ImageBERT模型中使用两阶段的预训练策略。第一个阶段使用LAIT数据集，第二个阶段使用其他公共数据集。注意，两个阶段应使用相同的训练策略。\n\n3）预训练任务"],[20,"\n","32:3"],[20,"\n在模型预训练过程中，设计了四个任务来对语言信息和视觉内容以及它们之间的交互进行建模。四个任务分别为：掩码语言建模（Masked Language Modeling）、掩码对象分类（Masked Object Classification）、掩码区域特征回归（Masked Region Feature Regression）、图文匹配（Image-Text Matching）。\n\n掩码语言建模简称MLM，在这个任务中的训练过程与BERT类似。并引入了负对数似然率来进行预测，另外预测还基于文本标记和视觉特征之间的交叉注意。\n\n掩码对象分类简称MOC，是掩码语言建模的扩展。与语言模型类似，其对视觉对象标记进行了掩码建模。并以15%的概率对物体对象进行掩码，在标记清零和保留的概率选择上分别为90%和10%。另外，在此任务中，还增加了一个完全的连通层，采用了交叉熵最小化的优化目标，结合语言特征的上下文，引入负对数似然率来进行预测正确的标签。\n\n掩码区域特征回归简称MRFR，与掩码对象分类类似，其也对视觉内容建模，但它在对象特征预测方面做得更精确。顾名思义，该任务目的在于对每个掩码对象的嵌入特征进行回归。在输出特征向量上添加一个完全连通的图层，并将其投影到与汇集的输入RoI对象特征相同的维度，然后应用L2损失函数来进行回归。\n\n值得注意的是，上述三个任务都使用条件掩码，这意味着当输入图像和文本相关时，只计算所有掩码损失。\n\n在图文匹配任务中，其主要目标是学习图文对齐（image-text alignment）。具体而言对于每个训练样本对每个图像随机抽取负句（negative sentences），对每个句子随机抽取负图像（negative images），生成负训练数据。在这个任务中，其用二元分类损失进行优化。\n\n4）微调任务"],[20,"\n","32:3"],[20,"\n经过预训练，可以得到一个“训练有素”的语言联合表征模型，接下来需要对图文检索任务模型进行微调和评估，因此本任务包含图像检索和文本检索两个子任务。图像检索目的是给定输入字幕句能够检索正确的图像，而图像文本检索正好相反。经过两个阶段的预训练后，在MSCoCO和Flickr30k数据集上对模型进行了微调，在微调过程中，输入序列的格式与预训练时的格式相同，但对象或单词上没有任何掩码。另外，针对不同的负采样方法提出了两个微调目标：图像到文本和文本到图像。\n\n为了使得提高模型效果，还对三种不同的损失函数进行了实验，这三种损失函数分别为：二元分类损失、多任务分类损失、三元组损失（Triplet loss）。关于这三种微调损失的组合研究，实验部分将做介绍。\n5、实验"],[20,"\n","32:2"],[20,"针对图像-文本检索任务，作者给出了零样本结果来评估预训练模型的质量和经过进一步微调后的结果。下面是在 MSCOCO 和Flickr30k 数据集的不同设置下，对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。\n\n1）评估预训练模型\n如前面所提到，模型经过了两次预训练。首先是在 LAIT 数据集上，采用从基于BERT 的模型初始化的参数对模型进行了预训练；然后又在公开数据集（Conceptual Captions， SBU Captions）上对模型进行二次预训练。具体过程和实验设置请参考论文。\n\n在没有微调的情况下，作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估，如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/Rienmu44ALE7yCQ7.png!thumbnail"},"29:0|30:0|3:\"1844\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"616\"|ori-width:\"1844\""],[20,"\n\n零样本结果如表 1 所示，我们可以发现，ImageBERT预训练模型在MSCOCO 获得了新的最佳结果，但在Flickr30k数据集上却比 UNITER模型的表现稍差。\n\n在微调后，ImageBERT模型获得了有竞争力的结果，相关情况在表2 部分进行说明。值得一提的是，"],[20,"相比于其他仅有一个预训练阶段的方法，这种多阶段的预训练策略在预训练期间学到了更多有用的知识，因而能够有助于下游任务的微调阶段。","0:\"%23ff0000\""],[20,"\n\n2）评估微调模型\n\n在检索任务上微调后的最终结果如表2 所示。我们可以看到，ImageBERT模型在Flickr30k 和 MSCOCO（同时在 1k和 5k的测试集）上都实现了最佳表现，并且超越了所有的其他方法，从而证明了"],[20,"本文所提的面向跨模态联合学习的 LAIT 数据和多阶段预训练策略的有效性。","0:\"%23ff0000\""],[20,"\n\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/5Mr3cg6zLXoHjL9J.png!thumbnail"},"29:0|30:0|3:\"1830\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"834\"|ori-width:\"1830\""],[20,"\n\n\n\n3）消融实验"],[20,"\n","32:3"],[20,"\n作者也在 Flickr3k 数据集上对预训练数据集的不同组合、全局视觉特征的显示、不同的训练任务等进行了消融实验，以进一步研究ImageBERT模型的架构和训练策略。\n\n"],[20,"预训练数据集","8:1"],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/WqfWH0ACCs4dutlK.png!thumbnail"},"29:0|30:0|3:\"1358\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"478\"|ori-width:\"1358\""],[20,"\n\n作者使用不同数据集的组合来进行预训练实验。结果如表3所示。 CC表示的仅在 Conceptual Captions 数据集上进行预训练；SBU 表示仅在 SBU Captions数据集上进行预训练；LAIT+CC+SBU表示使用LAIT, Conceptual Caption 和 SBU Captions的组合数据集进行预训练；LAIT → CC+SBU 表示使用 LAIT 来完成第一阶段的预训练，之后使用 Conceptual Captions和SBU Captions 数据集来做第二阶段的预训练。\n\n可以看到，"],[20,"用多阶段的方法来使用三种不同的域外数据集，获得了比其他方法明显更好的结果。","0:\"%23ff0000\""],[20,"\n\n"],[20,"全局图像特征","8:1"],[20,"\n"],[20,{"gallery":"https://uploader.shimo.im/f/DJatGrExJew2kTDn.png!thumbnail"},"29:0|30:0|3:\"1862\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"888\"|ori-width:\"1862\""],[20,"\n\n值得注意的是，检测的ROIs可能并不包含整个图像的所有信息。因此，作者也尝试将全局图像特征添加到视觉部分。文章使用了三个不同的CNN 模型（DenseNet，Resnet， GoogleNet）从输入图像上提取全局视觉特征，然而却发现并非所有的指标都会提高。结果如表4的第1部分所示。\n\n"],[20,"预训练损失","8:1"],[20,"\n\n作者也将由UNITER引起的MRFR损失添加到预训练中，结果在零样本结果上获得略微提高，结果如表4 的第2 部分所示。这意味着"],[20,"增加一个更难的任务来更好地对视觉内容进行建模，有助于视觉文本联合学习。","0:\"%23ff0000\""],[20,"\n\n"],[20,"图像中的目标数量 (RoIs)","8:1"],[20,"\n\n为了理解ImageBERT模型的视觉部分的重要性，作者基于不同的目标数量进行了实验。如表4的第4部分所示，ImageBERT模型在目标最少（目标数量与"],[20,"ViLBERT一样","27:\"10\""],[20,"）的情况下，在检索任务上并没有获得更好的结果。\n可以得出结论，更多的目标确实能够帮助模型实现更好的结果，因为更多的 RoIs 有助于理解图像内容。\n\n"],[20,"微调损失","8:1"],[20,"\n针对在第4部分所提到的三项损失，作者尝试在微调期间进行不同的组合。如表4的第4 部分所示，模型通过使用二元交叉熵损失（Binary Cross-Entropy Loss），本身就能在图像-文本检索任务上获得最佳的微调结果。\n\n6、评论"],[20,"\n","32:2"],[20,"据AI科技评论了解，事实上ImageBERT模型与以前的视觉-语言模型（例如ViLBERT、VL-BERT、UNITER、LXMERT等）相比，模型本身区别并不是很大。\n\n但值得重视的是他们收集的一个新的数据集，这个数据集在数量上是目前最大的vision-language数据集；另外他们进行了两步的预训练（首先是在LAIT进行预训练，然后是在Conceptual Caption进行预训练）。这两点使他们获得了还不错的性能。不过这篇文章仅对图像检索任务进行了测试，而没有进行例如Captioning, VQA, VCR, grounding等视觉-语言任务的实验。\n\n有趣的一点是，这篇文章在一定程度上表明了，预训练中数据集的顺序对性能有很大的影响。\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n"]]" style="caret-color: rgb(0, 0, 0); text-align: start; text-size-adjust: auto; color: rgb(51, 51, 51); letter-spacing: 0.5px; font-size: 15px;">目前最新的跨模态预训练模型常用的两个数据集分别是：

在语义上是否相关。用这个模型从十亿规模的image-text 对中过滤掉相关性不高的数据，从而生成的数据集LAIT（"],[20,"Large-scale weAk-supervised Image-Text），其中包含了一千万张图片，图片描述的平均长度为13个字。","27:\"10\""],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/u3awaRh8G8wYYga8.png!thumbnail"},"29:0|30:0|3:\"1036\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"360\"|ori-width:\"1036\""],[20,"\nLAIT数据集中的样本"],[20,"\n","7:1"],[20,"\n\n4、"],[20,"ImageBERT","27:\"12\""],[20,"模型"],[20,"\n","32:2"],[20,{"gallery":"https://uploader.shimo.im/f/PZ5V0YZq89Q21jEI.png!thumbnail"},"29:0|30:0|3:\"1424\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"682\"|ori-width:\"1424\""],[20,"\n \n如上图所示，"],[20,"ImageBERT模型的总体架构和BERT类似，都采用了","27:\"12\"|31:2"],[20,"Transformer作为最基础的架构。不同之处在于将图像视觉的标记和问题标注作为输入。注意其中图像视觉标记是从Faster-RCNN模型提取的ROL特征。\n\n通过一层嵌入层将文本和图像编码成不同的嵌入，然后将嵌入传送到多层双自我注意Transformer中来学习一个"],[20,"跨模态","27:\"12\"|31:2"],[20," Transformer，从而对视觉区域和文字标记之间的关系进行建模。\n\n1）嵌入建模"],[20,"\n","32:3"],[20,"\n整个嵌入建模分为三个部分：语言嵌入、图像嵌入、序列位置和片段嵌入。\n\n在语言嵌入模块中采用了与BERT相似的词预处理方法。具体而言，是用WordPiece方法将句子分成（标记）n个子词{w0,...,wn-1}。一些特殊的标记，例如CLS和SEP也被增添到标记的文本序列里。每个子词标记的最终嵌入是通过组合其原始单词嵌入、分段嵌入和序列位置嵌入来生成的。\n\n与语言嵌入类似，图像嵌入也是通过类似的过程从视觉输入中产生的。用Faster-RCNN从 o RoIs中提取特征（记为{r0,...ro-1}），从图像中提取特征，从而让这两个特征代表视觉内容。检测到的物体对象不仅可以为语言部分提供整个图像的视觉上下文（visual contexts），还可以通过详细的区域信息与特定的术语相关联。另外，还通过将对象相对于全局图像的位置编码成5维向量来向图像嵌入添加位置嵌入。5维向量表示如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/YnAdrOfmNGUnEDcr.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n\n\n其中，(xtl,ytl)以及(xbr,ybr)分别代表边界框的左上角和右下角坐标。5维向量中的第五个分向量相对于整个图像的比例面积。\n"],[20,{"gallery":"https://uploader.shimo.im/f/axgNGmzCE98UmvTl.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n另外，物体特征和位置嵌入都需要通过语言嵌入投影到同一维度。e(i)代表每个图像的RoI。其计算通过加总对象嵌入、分段嵌入、图像位置嵌入以及序列位置嵌入获得。这意味着每个嵌入被投影到一个向量之中，然后用同样的嵌入大小作为Transformer 隐藏层的尺寸，最后采用正则化层。\n\n在序列位置和片段嵌入中，因为没有检测到Rol的顺序，所以其对所有的视觉标记使用固定的虚拟位置，并且将相应的坐标添加到图像嵌入中。\n\n2）多阶段预训练"],[20,"\n","32:3"],[20,"\n不同的数据集来源不同，所以其数据集质量也就不同。为了充分利用不同类型的数据集，作者提出了多阶段预训练框架。如下图所示。\n"],[20,{"gallery":"https://uploader.shimo.im/f/6Ff04ZARTgwDTdoQ.png!thumbnail"},"29:0|30:0|3:\"1297\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"434\"|ori-width:\"1297\""],[20,"\n\n其主要思想是先用大规模域外数据训练预先训练好的模型，然后再用小规模域内数据训练。在多阶段预训练中，为了有顺序地利用不同种类的数据集，可以将几个预训练阶段应用到相同的网络结构。\n\n更为具体的，在ImageBERT模型中使用两阶段的预训练策略。第一个阶段使用LAIT数据集，第二个阶段使用其他公共数据集。注意，两个阶段应使用相同的训练策略。\n\n3）预训练任务"],[20,"\n","32:3"],[20,"\n在模型预训练过程中，设计了四个任务来对语言信息和视觉内容以及它们之间的交互进行建模。四个任务分别为：掩码语言建模（Masked Language Modeling）、掩码对象分类（Masked Object Classification）、掩码区域特征回归（Masked Region Feature Regression）、图文匹配（Image-Text Matching）。\n\n掩码语言建模简称MLM，在这个任务中的训练过程与BERT类似。并引入了负对数似然率来进行预测，另外预测还基于文本标记和视觉特征之间的交叉注意。\n\n掩码对象分类简称MOC，是掩码语言建模的扩展。与语言模型类似，其对视觉对象标记进行了掩码建模。并以15%的概率对物体对象进行掩码，在标记清零和保留的概率选择上分别为90%和10%。另外，在此任务中，还增加了一个完全的连通层，采用了交叉熵最小化的优化目标，结合语言特征的上下文，引入负对数似然率来进行预测正确的标签。\n\n掩码区域特征回归简称MRFR，与掩码对象分类类似，其也对视觉内容建模，但它在对象特征预测方面做得更精确。顾名思义，该任务目的在于对每个掩码对象的嵌入特征进行回归。在输出特征向量上添加一个完全连通的图层，并将其投影到与汇集的输入RoI对象特征相同的维度，然后应用L2损失函数来进行回归。\n\n值得注意的是，上述三个任务都使用条件掩码，这意味着当输入图像和文本相关时，只计算所有掩码损失。\n\n在图文匹配任务中，其主要目标是学习图文对齐（image-text alignment）。具体而言对于每个训练样本对每个图像随机抽取负句（negative sentences），对每个句子随机抽取负图像（negative images），生成负训练数据。在这个任务中，其用二元分类损失进行优化。\n\n4）微调任务"],[20,"\n","32:3"],[20,"\n经过预训练，可以得到一个“训练有素”的语言联合表征模型，接下来需要对图文检索任务模型进行微调和评估，因此本任务包含图像检索和文本检索两个子任务。图像检索目的是给定输入字幕句能够检索正确的图像，而图像文本检索正好相反。经过两个阶段的预训练后，在MSCoCO和Flickr30k数据集上对模型进行了微调，在微调过程中，输入序列的格式与预训练时的格式相同，但对象或单词上没有任何掩码。另外，针对不同的负采样方法提出了两个微调目标：图像到文本和文本到图像。\n\n为了使得提高模型效果，还对三种不同的损失函数进行了实验，这三种损失函数分别为：二元分类损失、多任务分类损失、三元组损失（Triplet loss）。关于这三种微调损失的组合研究，实验部分将做介绍。\n5、实验"],[20,"\n","32:2"],[20,"针对图像-文本检索任务，作者给出了零样本结果来评估预训练模型的质量和经过进一步微调后的结果。下面是在 MSCOCO 和Flickr30k 数据集的不同设置下，对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。\n\n1）评估预训练模型\n如前面所提到，模型经过了两次预训练。首先是在 LAIT 数据集上，采用从基于BERT 的模型初始化的参数对模型进行了预训练；然后又在公开数据集（Conceptual Captions， SBU Captions）上对模型进行二次预训练。具体过程和实验设置请参考论文。\n\n在没有微调的情况下，作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估，如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/Rienmu44ALE7yCQ7.png!thumbnail"},"29:0|30:0|3:\"1844\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"616\"|ori-width:\"1844\""],[20,"\n\n零样本结果如表 1 所示，我们可以发现，ImageBERT预训练模型在MSCOCO 获得了新的最佳结果，但在Flickr30k数据集上却比 UNITER模型的表现稍差。\n\n在微调后，ImageBERT模型获得了有竞争力的结果，相关情况在表2 部分进行说明。值得一提的是，"],[20,"相比于其他仅有一个预训练阶段的方法，这种多阶段的预训练策略在预训练期间学到了更多有用的知识，因而能够有助于下游任务的微调阶段。","0:\"%23ff0000\""],[20,"\n\n2）评估微调模型\n\n在检索任务上微调后的最终结果如表2 所示。我们可以看到，ImageBERT模型在Flickr30k 和 MSCOCO（同时在 1k和 5k的测试集）上都实现了最佳表现，并且超越了所有的其他方法，从而证明了"],[20,"本文所提的面向跨模态联合学习的 LAIT 数据和多阶段预训练策略的有效性。","0:\"%23ff0000\""],[20,"\n\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/5Mr3cg6zLXoHjL9J.png!thumbnail"},"29:0|30:0|3:\"1830\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"834\"|ori-width:\"1830\""],[20,"\n\n\n\n3）消融实验"],[20,"\n","32:3"],[20,"\n作者也在 Flickr3k 数据集上对预训练数据集的不同组合、全局视觉特征的显示、不同的训练任务等进行了消融实验，以进一步研究ImageBERT模型的架构和训练策略。\n\n"],[20,"预训练数据集","8:1"],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/WqfWH0ACCs4dutlK.png!thumbnail"},"29:0|30:0|3:\"1358\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"478\"|ori-width:\"1358\""],[20,"\n\n作者使用不同数据集的组合来进行预训练实验。结果如表3所示。 CC表示的仅在 Conceptual Captions 数据集上进行预训练；SBU 表示仅在 SBU Captions数据集上进行预训练；LAIT+CC+SBU表示使用LAIT, Conceptual Caption 和 SBU Captions的组合数据集进行预训练；LAIT → CC+SBU 表示使用 LAIT 来完成第一阶段的预训练，之后使用 Conceptual Captions和SBU Captions 数据集来做第二阶段的预训练。\n\n可以看到，"],[20,"用多阶段的方法来使用三种不同的域外数据集，获得了比其他方法明显更好的结果。","0:\"%23ff0000\""],[20,"\n\n"],[20,"全局图像特征","8:1"],[20,"\n"],[20,{"gallery":"https://uploader.shimo.im/f/DJatGrExJew2kTDn.png!thumbnail"},"29:0|30:0|3:\"1862\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"888\"|ori-width:\"1862\""],[20,"\n\n值得注意的是，检测的ROIs可能并不包含整个图像的所有信息。因此，作者也尝试将全局图像特征添加到视觉部分。文章使用了三个不同的CNN 模型（DenseNet，Resnet， GoogleNet）从输入图像上提取全局视觉特征，然而却发现并非所有的指标都会提高。结果如表4的第1部分所示。\n\n"],[20,"预训练损失","8:1"],[20,"\n\n作者也将由UNITER引起的MRFR损失添加到预训练中，结果在零样本结果上获得略微提高，结果如表4 的第2 部分所示。这意味着"],[20,"增加一个更难的任务来更好地对视觉内容进行建模，有助于视觉文本联合学习。","0:\"%23ff0000\""],[20,"\n\n"],[20,"图像中的目标数量 (RoIs)","8:1"],[20,"\n\n为了理解ImageBERT模型的视觉部分的重要性，作者基于不同的目标数量进行了实验。如表4的第4部分所示，ImageBERT模型在目标最少（目标数量与"],[20,"ViLBERT一样","27:\"10\""],[20,"）的情况下，在检索任务上并没有获得更好的结果。\n可以得出结论，更多的目标确实能够帮助模型实现更好的结果，因为更多的 RoIs 有助于理解图像内容。\n\n"],[20,"微调损失","8:1"],[20,"\n针对在第4部分所提到的三项损失，作者尝试在微调期间进行不同的组合。如表4的第4 部分所示，模型通过使用二元交叉熵损失（Binary Cross-Entropy Loss），本身就能在图像-文本检索任务上获得最佳的微调结果。\n\n6、评论"],[20,"\n","32:2"],[20,"据AI科技评论了解，事实上ImageBERT模型与以前的视觉-语言模型（例如ViLBERT、VL-BERT、UNITER、LXMERT等）相比，模型本身区别并不是很大。\n\n但值得重视的是他们收集的一个新的数据集，这个数据集在数量上是目前最大的vision-language数据集；另外他们进行了两步的预训练（首先是在LAIT进行预训练，然后是在Conceptual Caption进行预训练）。这两点使他们获得了还不错的性能。不过这篇文章仅对图像检索任务进行了测试，而没有进行例如Captioning, VQA, VCR, grounding等视觉-语言任务的实验。\n\n有趣的一点是，这篇文章在一定程度上表明了，预训练中数据集的顺序对性能有很大的影响。\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n"]]" style="caret-color: rgb(0, 0, 0); text-align: start; text-size-adjust: auto; color: rgb(51, 51, 51); letter-spacing: 0.5px; font-size: 15px;">The Conceptual Captions (CC) dataset：包含了3百万带有描述的图像，这些图像是从网页的Alt-text HTML属性中获取的；
在语义上是否相关。用这个模型从十亿规模的image-text 对中过滤掉相关性不高的数据，从而生成的数据集LAIT（"],[20,"Large-scale weAk-supervised Image-Text），其中包含了一千万张图片，图片描述的平均长度为13个字。","27:\"10\""],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/u3awaRh8G8wYYga8.png!thumbnail"},"29:0|30:0|3:\"1036\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"360\"|ori-width:\"1036\""],[20,"\nLAIT数据集中的样本"],[20,"\n","7:1"],[20,"\n\n4、"],[20,"ImageBERT","27:\"12\""],[20,"模型"],[20,"\n","32:2"],[20,{"gallery":"https://uploader.shimo.im/f/PZ5V0YZq89Q21jEI.png!thumbnail"},"29:0|30:0|3:\"1424\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"682\"|ori-width:\"1424\""],[20,"\n \n如上图所示，"],[20,"ImageBERT模型的总体架构和BERT类似，都采用了","27:\"12\"|31:2"],[20,"Transformer作为最基础的架构。不同之处在于将图像视觉的标记和问题标注作为输入。注意其中图像视觉标记是从Faster-RCNN模型提取的ROL特征。\n\n通过一层嵌入层将文本和图像编码成不同的嵌入，然后将嵌入传送到多层双自我注意Transformer中来学习一个"],[20,"跨模态","27:\"12\"|31:2"],[20," Transformer，从而对视觉区域和文字标记之间的关系进行建模。\n\n1）嵌入建模"],[20,"\n","32:3"],[20,"\n整个嵌入建模分为三个部分：语言嵌入、图像嵌入、序列位置和片段嵌入。\n\n在语言嵌入模块中采用了与BERT相似的词预处理方法。具体而言，是用WordPiece方法将句子分成（标记）n个子词{w0,...,wn-1}。一些特殊的标记，例如CLS和SEP也被增添到标记的文本序列里。每个子词标记的最终嵌入是通过组合其原始单词嵌入、分段嵌入和序列位置嵌入来生成的。\n\n与语言嵌入类似，图像嵌入也是通过类似的过程从视觉输入中产生的。用Faster-RCNN从 o RoIs中提取特征（记为{r0,...ro-1}），从图像中提取特征，从而让这两个特征代表视觉内容。检测到的物体对象不仅可以为语言部分提供整个图像的视觉上下文（visual contexts），还可以通过详细的区域信息与特定的术语相关联。另外，还通过将对象相对于全局图像的位置编码成5维向量来向图像嵌入添加位置嵌入。5维向量表示如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/YnAdrOfmNGUnEDcr.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n\n\n其中，(xtl,ytl)以及(xbr,ybr)分别代表边界框的左上角和右下角坐标。5维向量中的第五个分向量相对于整个图像的比例面积。\n"],[20,{"gallery":"https://uploader.shimo.im/f/axgNGmzCE98UmvTl.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n另外，物体特征和位置嵌入都需要通过语言嵌入投影到同一维度。e(i)代表每个图像的RoI。其计算通过加总对象嵌入、分段嵌入、图像位置嵌入以及序列位置嵌入获得。这意味着每个嵌入被投影到一个向量之中，然后用同样的嵌入大小作为Transformer 隐藏层的尺寸，最后采用正则化层。\n\n在序列位置和片段嵌入中，因为没有检测到Rol的顺序，所以其对所有的视觉标记使用固定的虚拟位置，并且将相应的坐标添加到图像嵌入中。\n\n2）多阶段预训练"],[20,"\n","32:3"],[20,"\n不同的数据集来源不同，所以其数据集质量也就不同。为了充分利用不同类型的数据集，作者提出了多阶段预训练框架。如下图所示。\n"],[20,{"gallery":"https://uploader.shimo.im/f/6Ff04ZARTgwDTdoQ.png!thumbnail"},"29:0|30:0|3:\"1297\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"434\"|ori-width:\"1297\""],[20,"\n\n其主要思想是先用大规模域外数据训练预先训练好的模型，然后再用小规模域内数据训练。在多阶段预训练中，为了有顺序地利用不同种类的数据集，可以将几个预训练阶段应用到相同的网络结构。\n\n更为具体的，在ImageBERT模型中使用两阶段的预训练策略。第一个阶段使用LAIT数据集，第二个阶段使用其他公共数据集。注意，两个阶段应使用相同的训练策略。\n\n3）预训练任务"],[20,"\n","32:3"],[20,"\n在模型预训练过程中，设计了四个任务来对语言信息和视觉内容以及它们之间的交互进行建模。四个任务分别为：掩码语言建模（Masked Language Modeling）、掩码对象分类（Masked Object Classification）、掩码区域特征回归（Masked Region Feature Regression）、图文匹配（Image-Text Matching）。\n\n掩码语言建模简称MLM，在这个任务中的训练过程与BERT类似。并引入了负对数似然率来进行预测，另外预测还基于文本标记和视觉特征之间的交叉注意。\n\n掩码对象分类简称MOC，是掩码语言建模的扩展。与语言模型类似，其对视觉对象标记进行了掩码建模。并以15%的概率对物体对象进行掩码，在标记清零和保留的概率选择上分别为90%和10%。另外，在此任务中，还增加了一个完全的连通层，采用了交叉熵最小化的优化目标，结合语言特征的上下文，引入负对数似然率来进行预测正确的标签。\n\n掩码区域特征回归简称MRFR，与掩码对象分类类似，其也对视觉内容建模，但它在对象特征预测方面做得更精确。顾名思义，该任务目的在于对每个掩码对象的嵌入特征进行回归。在输出特征向量上添加一个完全连通的图层，并将其投影到与汇集的输入RoI对象特征相同的维度，然后应用L2损失函数来进行回归。\n\n值得注意的是，上述三个任务都使用条件掩码，这意味着当输入图像和文本相关时，只计算所有掩码损失。\n\n在图文匹配任务中，其主要目标是学习图文对齐（image-text alignment）。具体而言对于每个训练样本对每个图像随机抽取负句（negative sentences），对每个句子随机抽取负图像（negative images），生成负训练数据。在这个任务中，其用二元分类损失进行优化。\n\n4）微调任务"],[20,"\n","32:3"],[20,"\n经过预训练，可以得到一个“训练有素”的语言联合表征模型，接下来需要对图文检索任务模型进行微调和评估，因此本任务包含图像检索和文本检索两个子任务。图像检索目的是给定输入字幕句能够检索正确的图像，而图像文本检索正好相反。经过两个阶段的预训练后，在MSCoCO和Flickr30k数据集上对模型进行了微调，在微调过程中，输入序列的格式与预训练时的格式相同，但对象或单词上没有任何掩码。另外，针对不同的负采样方法提出了两个微调目标：图像到文本和文本到图像。\n\n为了使得提高模型效果，还对三种不同的损失函数进行了实验，这三种损失函数分别为：二元分类损失、多任务分类损失、三元组损失（Triplet loss）。关于这三种微调损失的组合研究，实验部分将做介绍。\n5、实验"],[20,"\n","32:2"],[20,"针对图像-文本检索任务，作者给出了零样本结果来评估预训练模型的质量和经过进一步微调后的结果。下面是在 MSCOCO 和Flickr30k 数据集的不同设置下，对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。\n\n1）评估预训练模型\n如前面所提到，模型经过了两次预训练。首先是在 LAIT 数据集上，采用从基于BERT 的模型初始化的参数对模型进行了预训练；然后又在公开数据集（Conceptual Captions， SBU Captions）上对模型进行二次预训练。具体过程和实验设置请参考论文。\n\n在没有微调的情况下，作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估，如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/Rienmu44ALE7yCQ7.png!thumbnail"},"29:0|30:0|3:\"1844\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"616\"|ori-width:\"1844\""],[20,"\n\n零样本结果如表 1 所示，我们可以发现，ImageBERT预训练模型在MSCOCO 获得了新的最佳结果，但在Flickr30k数据集上却比 UNITER模型的表现稍差。\n\n在微调后，ImageBERT模型获得了有竞争力的结果，相关情况在表2 部分进行说明。值得一提的是，"],[20,"相比于其他仅有一个预训练阶段的方法，这种多阶段的预训练策略在预训练期间学到了更多有用的知识，因而能够有助于下游任务的微调阶段。","0:\"%23ff0000\""],[20,"\n\n2）评估微调模型\n\n在检索任务上微调后的最终结果如表2 所示。我们可以看到，ImageBERT模型在Flickr30k 和 MSCOCO（同时在 1k和 5k的测试集）上都实现了最佳表现，并且超越了所有的其他方法，从而证明了"],[20,"本文所提的面向跨模态联合学习的 LAIT 数据和多阶段预训练策略的有效性。","0:\"%23ff0000\""],[20,"\n\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/5Mr3cg6zLXoHjL9J.png!thumbnail"},"29:0|30:0|3:\"1830\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"834\"|ori-width:\"1830\""],[20,"\n\n\n\n3）消融实验"],[20,"\n","32:3"],[20,"\n作者也在 Flickr3k 数据集上对预训练数据集的不同组合、全局视觉特征的显示、不同的训练任务等进行了消融实验，以进一步研究ImageBERT模型的架构和训练策略。\n\n"],[20,"预训练数据集","8:1"],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/WqfWH0ACCs4dutlK.png!thumbnail"},"29:0|30:0|3:\"1358\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"478\"|ori-width:\"1358\""],[20,"\n\n作者使用不同数据集的组合来进行预训练实验。结果如表3所示。 CC表示的仅在 Conceptual Captions 数据集上进行预训练；SBU 表示仅在 SBU Captions数据集上进行预训练；LAIT+CC+SBU表示使用LAIT, Conceptual Caption 和 SBU Captions的组合数据集进行预训练；LAIT → CC+SBU 表示使用 LAIT 来完成第一阶段的预训练，之后使用 Conceptual Captions和SBU Captions 数据集来做第二阶段的预训练。\n\n可以看到，"],[20,"用多阶段的方法来使用三种不同的域外数据集，获得了比其他方法明显更好的结果。","0:\"%23ff0000\""],[20,"\n\n"],[20,"全局图像特征","8:1"],[20,"\n"],[20,{"gallery":"https://uploader.shimo.im/f/DJatGrExJew2kTDn.png!thumbnail"},"29:0|30:0|3:\"1862\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"888\"|ori-width:\"1862\""],[20,"\n\n值得注意的是，检测的ROIs可能并不包含整个图像的所有信息。因此，作者也尝试将全局图像特征添加到视觉部分。文章使用了三个不同的CNN 模型（DenseNet，Resnet， GoogleNet）从输入图像上提取全局视觉特征，然而却发现并非所有的指标都会提高。结果如表4的第1部分所示。\n\n"],[20,"预训练损失","8:1"],[20,"\n\n作者也将由UNITER引起的MRFR损失添加到预训练中，结果在零样本结果上获得略微提高，结果如表4 的第2 部分所示。这意味着"],[20,"增加一个更难的任务来更好地对视觉内容进行建模，有助于视觉文本联合学习。","0:\"%23ff0000\""],[20,"\n\n"],[20,"图像中的目标数量 (RoIs)","8:1"],[20,"\n\n为了理解ImageBERT模型的视觉部分的重要性，作者基于不同的目标数量进行了实验。如表4的第4部分所示，ImageBERT模型在目标最少（目标数量与"],[20,"ViLBERT一样","27:\"10\""],[20,"）的情况下，在检索任务上并没有获得更好的结果。\n可以得出结论，更多的目标确实能够帮助模型实现更好的结果，因为更多的 RoIs 有助于理解图像内容。\n\n"],[20,"微调损失","8:1"],[20,"\n针对在第4部分所提到的三项损失，作者尝试在微调期间进行不同的组合。如表4的第4 部分所示，模型通过使用二元交叉熵损失（Binary Cross-Entropy Loss），本身就能在图像-文本检索任务上获得最佳的微调结果。\n\n6、评论"],[20,"\n","32:2"],[20,"据AI科技评论了解，事实上ImageBERT模型与以前的视觉-语言模型（例如ViLBERT、VL-BERT、UNITER、LXMERT等）相比，模型本身区别并不是很大。\n\n但值得重视的是他们收集的一个新的数据集，这个数据集在数量上是目前最大的vision-language数据集；另外他们进行了两步的预训练（首先是在LAIT进行预训练，然后是在Conceptual Caption进行预训练）。这两点使他们获得了还不错的性能。不过这篇文章仅对图像检索任务进行了测试，而没有进行例如Captioning, VQA, VCR, grounding等视觉-语言任务的实验。\n\n有趣的一点是，这篇文章在一定程度上表明了，预训练中数据集的顺序对性能有很大的影响。\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n"]]" style="caret-color: rgb(0, 0, 0); text-align: start; text-size-adjust: auto; color: rgb(51, 51, 51); letter-spacing: 0.5px; font-size: 15px;">SBU Captions：包含了1百万用户相关标题的图像。

在语义上是否相关。用这个模型从十亿规模的image-text 对中过滤掉相关性不高的数据，从而生成的数据集LAIT（"],[20,"Large-scale weAk-supervised Image-Text），其中包含了一千万张图片，图片描述的平均长度为13个字。","27:\"10\""],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/u3awaRh8G8wYYga8.png!thumbnail"},"29:0|30:0|3:\"1036\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"360\"|ori-width:\"1036\""],[20,"\nLAIT数据集中的样本"],[20,"\n","7:1"],[20,"\n\n4、"],[20,"ImageBERT","27:\"12\""],[20,"模型"],[20,"\n","32:2"],[20,{"gallery":"https://uploader.shimo.im/f/PZ5V0YZq89Q21jEI.png!thumbnail"},"29:0|30:0|3:\"1424\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"682\"|ori-width:\"1424\""],[20,"\n \n如上图所示，"],[20,"ImageBERT模型的总体架构和BERT类似，都采用了","27:\"12\"|31:2"],[20,"Transformer作为最基础的架构。不同之处在于将图像视觉的标记和问题标注作为输入。注意其中图像视觉标记是从Faster-RCNN模型提取的ROL特征。\n\n通过一层嵌入层将文本和图像编码成不同的嵌入，然后将嵌入传送到多层双自我注意Transformer中来学习一个"],[20,"跨模态","27:\"12\"|31:2"],[20," Transformer，从而对视觉区域和文字标记之间的关系进行建模。\n\n1）嵌入建模"],[20,"\n","32:3"],[20,"\n整个嵌入建模分为三个部分：语言嵌入、图像嵌入、序列位置和片段嵌入。\n\n在语言嵌入模块中采用了与BERT相似的词预处理方法。具体而言，是用WordPiece方法将句子分成（标记）n个子词{w0,...,wn-1}。一些特殊的标记，例如CLS和SEP也被增添到标记的文本序列里。每个子词标记的最终嵌入是通过组合其原始单词嵌入、分段嵌入和序列位置嵌入来生成的。\n\n与语言嵌入类似，图像嵌入也是通过类似的过程从视觉输入中产生的。用Faster-RCNN从 o RoIs中提取特征（记为{r0,...ro-1}），从图像中提取特征，从而让这两个特征代表视觉内容。检测到的物体对象不仅可以为语言部分提供整个图像的视觉上下文（visual contexts），还可以通过详细的区域信息与特定的术语相关联。另外，还通过将对象相对于全局图像的位置编码成5维向量来向图像嵌入添加位置嵌入。5维向量表示如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/YnAdrOfmNGUnEDcr.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n\n\n其中，(xtl,ytl)以及(xbr,ybr)分别代表边界框的左上角和右下角坐标。5维向量中的第五个分向量相对于整个图像的比例面积。\n"],[20,{"gallery":"https://uploader.shimo.im/f/axgNGmzCE98UmvTl.png!thumbnail"},"29:0|30:0|crop:\"\"|frame:\"none\""],[20,"\n另外，物体特征和位置嵌入都需要通过语言嵌入投影到同一维度。e(i)代表每个图像的RoI。其计算通过加总对象嵌入、分段嵌入、图像位置嵌入以及序列位置嵌入获得。这意味着每个嵌入被投影到一个向量之中，然后用同样的嵌入大小作为Transformer 隐藏层的尺寸，最后采用正则化层。\n\n在序列位置和片段嵌入中，因为没有检测到Rol的顺序，所以其对所有的视觉标记使用固定的虚拟位置，并且将相应的坐标添加到图像嵌入中。\n\n2）多阶段预训练"],[20,"\n","32:3"],[20,"\n不同的数据集来源不同，所以其数据集质量也就不同。为了充分利用不同类型的数据集，作者提出了多阶段预训练框架。如下图所示。\n"],[20,{"gallery":"https://uploader.shimo.im/f/6Ff04ZARTgwDTdoQ.png!thumbnail"},"29:0|30:0|3:\"1297\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"434\"|ori-width:\"1297\""],[20,"\n\n其主要思想是先用大规模域外数据训练预先训练好的模型，然后再用小规模域内数据训练。在多阶段预训练中，为了有顺序地利用不同种类的数据集，可以将几个预训练阶段应用到相同的网络结构。\n\n更为具体的，在ImageBERT模型中使用两阶段的预训练策略。第一个阶段使用LAIT数据集，第二个阶段使用其他公共数据集。注意，两个阶段应使用相同的训练策略。\n\n3）预训练任务"],[20,"\n","32:3"],[20,"\n在模型预训练过程中，设计了四个任务来对语言信息和视觉内容以及它们之间的交互进行建模。四个任务分别为：掩码语言建模（Masked Language Modeling）、掩码对象分类（Masked Object Classification）、掩码区域特征回归（Masked Region Feature Regression）、图文匹配（Image-Text Matching）。\n\n掩码语言建模简称MLM，在这个任务中的训练过程与BERT类似。并引入了负对数似然率来进行预测，另外预测还基于文本标记和视觉特征之间的交叉注意。\n\n掩码对象分类简称MOC，是掩码语言建模的扩展。与语言模型类似，其对视觉对象标记进行了掩码建模。并以15%的概率对物体对象进行掩码，在标记清零和保留的概率选择上分别为90%和10%。另外，在此任务中，还增加了一个完全的连通层，采用了交叉熵最小化的优化目标，结合语言特征的上下文，引入负对数似然率来进行预测正确的标签。\n\n掩码区域特征回归简称MRFR，与掩码对象分类类似，其也对视觉内容建模，但它在对象特征预测方面做得更精确。顾名思义，该任务目的在于对每个掩码对象的嵌入特征进行回归。在输出特征向量上添加一个完全连通的图层，并将其投影到与汇集的输入RoI对象特征相同的维度，然后应用L2损失函数来进行回归。\n\n值得注意的是，上述三个任务都使用条件掩码，这意味着当输入图像和文本相关时，只计算所有掩码损失。\n\n在图文匹配任务中，其主要目标是学习图文对齐（image-text alignment）。具体而言对于每个训练样本对每个图像随机抽取负句（negative sentences），对每个句子随机抽取负图像（negative images），生成负训练数据。在这个任务中，其用二元分类损失进行优化。\n\n4）微调任务"],[20,"\n","32:3"],[20,"\n经过预训练，可以得到一个“训练有素”的语言联合表征模型，接下来需要对图文检索任务模型进行微调和评估，因此本任务包含图像检索和文本检索两个子任务。图像检索目的是给定输入字幕句能够检索正确的图像，而图像文本检索正好相反。经过两个阶段的预训练后，在MSCoCO和Flickr30k数据集上对模型进行了微调，在微调过程中，输入序列的格式与预训练时的格式相同，但对象或单词上没有任何掩码。另外，针对不同的负采样方法提出了两个微调目标：图像到文本和文本到图像。\n\n为了使得提高模型效果，还对三种不同的损失函数进行了实验，这三种损失函数分别为：二元分类损失、多任务分类损失、三元组损失（Triplet loss）。关于这三种微调损失的组合研究，实验部分将做介绍。\n5、实验"],[20,"\n","32:2"],[20,"针对图像-文本检索任务，作者给出了零样本结果来评估预训练模型的质量和经过进一步微调后的结果。下面是在 MSCOCO 和Flickr30k 数据集的不同设置下，对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。\n\n1）评估预训练模型\n如前面所提到，模型经过了两次预训练。首先是在 LAIT 数据集上，采用从基于BERT 的模型初始化的参数对模型进行了预训练；然后又在公开数据集（Conceptual Captions， SBU Captions）上对模型进行二次预训练。具体过程和实验设置请参考论文。\n\n在没有微调的情况下，作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估，如下：\n"],[20,{"gallery":"https://uploader.shimo.im/f/Rienmu44ALE7yCQ7.png!thumbnail"},"29:0|30:0|3:\"1844\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"616\"|ori-width:\"1844\""],[20,"\n\n零样本结果如表 1 所示，我们可以发现，ImageBERT预训练模型在MSCOCO 获得了新的最佳结果，但在Flickr30k数据集上却比 UNITER模型的表现稍差。\n\n在微调后，ImageBERT模型获得了有竞争力的结果，相关情况在表2 部分进行说明。值得一提的是，"],[20,"相比于其他仅有一个预训练阶段的方法，这种多阶段的预训练策略在预训练期间学到了更多有用的知识，因而能够有助于下游任务的微调阶段。","0:\"%23ff0000\""],[20,"\n\n2）评估微调模型\n\n在检索任务上微调后的最终结果如表2 所示。我们可以看到，ImageBERT模型在Flickr30k 和 MSCOCO（同时在 1k和 5k的测试集）上都实现了最佳表现，并且超越了所有的其他方法，从而证明了"],[20,"本文所提的面向跨模态联合学习的 LAIT 数据和多阶段预训练策略的有效性。","0:\"%23ff0000\""],[20,"\n\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/5Mr3cg6zLXoHjL9J.png!thumbnail"},"29:0|30:0|3:\"1830\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"834\"|ori-width:\"1830\""],[20,"\n\n\n\n3）消融实验"],[20,"\n","32:3"],[20,"\n作者也在 Flickr3k 数据集上对预训练数据集的不同组合、全局视觉特征的显示、不同的训练任务等进行了消融实验，以进一步研究ImageBERT模型的架构和训练策略。\n\n"],[20,"预训练数据集","8:1"],[20,"\n\n"],[20,{"gallery":"https://uploader.shimo.im/f/WqfWH0ACCs4dutlK.png!thumbnail"},"29:0|30:0|3:\"1358\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"478\"|ori-width:\"1358\""],[20,"\n\n作者使用不同数据集的组合来进行预训练实验。结果如表3所示。 CC表示的仅在 Conceptual Captions 数据集上进行预训练；SBU 表示仅在 SBU Captions数据集上进行预训练；LAIT+CC+SBU表示使用LAIT, Conceptual Caption 和 SBU Captions的组合数据集进行预训练；LAIT → CC+SBU 表示使用 LAIT 来完成第一阶段的预训练，之后使用 Conceptual Captions和SBU Captions 数据集来做第二阶段的预训练。\n\n可以看到，"],[20,"用多阶段的方法来使用三种不同的域外数据集，获得了比其他方法明显更好的结果。","0:\"%23ff0000\""],[20,"\n\n"],[20,"全局图像特征","8:1"],[20,"\n"],[20,{"gallery":"https://uploader.shimo.im/f/DJatGrExJew2kTDn.png!thumbnail"},"29:0|30:0|3:\"1862\"|4:\"auto\"|crop:\"\"|frame:\"none\"|ori-height:\"888\"|ori-width:\"1862\""],[20,"\n\n值得注意的是，检测的ROIs可能并不包含整个图像的所有信息。因此，作者也尝试将全局图像特征添加到视觉部分。文章使用了三个不同的CNN 模型（DenseNet，Resnet， GoogleNet）从输入图像上提取全局视觉特征，然而却发现并非所有的指标都会提高。结果如表4的第1部分所示。\n\n"],[20,"预训练损失","8:1"],[20,"\n\n作者也将由UNITER引起的MRFR损失添加到预训练中，结果在零样本结果上获得略微提高，结果如表4 的第2 部分所示。这意味着"],[20,"增加一个更难的任务来更好地对视觉内容进行建模，有助于视觉文本联合学习。","0:\"%23ff0000\""],[20,"\n\n"],[20,"图像中的目标数量 (RoIs)","8:1"],[20,"\n\n为了理解ImageBERT模型的视觉部分的重要性，作者基于不同的目标数量进行了实验。如表4的第4部分所示，ImageBERT模型在目标最少（目标数量与"],[20,"ViLBERT一样","27:\"10\""],[20,"）的情况下，在检索任务上并没有获得更好的结果。\n可以得出结论，更多的目标确实能够帮助模型实现更好的结果，因为更多的 RoIs 有助于理解图像内容。\n\n"],[20,"微调损失","8:1"],[20,"\n针对在第4部分所提到的三项损失，作者尝试在微调期间进行不同的组合。如表4的第4 部分所示，模型通过使用二元交叉熵损失（Binary Cross-Entropy Loss），本身就能在图像-文本检索任务上获得最佳的微调结果。\n\n6、评论"],[20,"\n","32:2"],[20,"据AI科技评论了解，事实上ImageBERT模型与以前的视觉-语言模型（例如ViLBERT、VL-BERT、UNITER、LXMERT等）相比，模型本身区别并不是很大。\n\n但值得重视的是他们收集的一个新的数据集，这个数据集在数量上是目前最大的vision-language数据集；另外他们进行了两步的预训练（首先是在LAIT进行预训练，然后是在Conceptual Caption进行预训练）。这两点使他们获得了还不错的性能。不过这篇文章仅对图像检索任务进行了测试，而没有进行例如Captioning, VQA, VCR, grounding等视觉-语言任务的实验。\n\n有趣的一点是，这篇文章在一定程度上表明了，预训练中数据集的顺序对性能有很大的影响。\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n"]]" style="caret-color: rgb(0, 0, 0); text-align: start; text-size-adjust: auto; color: rgb(51, 51, 51); letter-spacing: 0.5px; font-size: 15px;">但这些数据集仍然不够大，不足以对具有数亿参数的模型进行预训练（特别是在将来可能还会有更大的模型）。