主要观点总结
本文介绍了美团在广告算法领域的探索和实践,包括搜索广告的三个阶段:多策略关键词挖掘、分层召回体系、生成式召回。文章还详细描述了每个阶段的特点、存在的问题和解决方案。最后,文章总结生成式算法相比判别式的优势,并展望了未来的发展方向。
关键观点总结
关键观点1: 美团搜索广告的三个阶段
第一阶段是多策略关键词挖掘,聚焦在通过离线方式覆盖高频流量;第二阶段是分层召回体系,通过业务类型划分业务范畴进行针对性召回;第三阶段是生成式召回,借鉴生成式大模型的思想和能力,提高召回算法的决策空间。
关键观点2: 生成式关键词召回
生成式召回主要借鉴大模型思想,通过构建概率贡献图的方式,采样得到关键词之间的导出关系,在一次生成时直接生成多个有推理关系的关键词。通过序列推理生成关键词,并借助人类反馈方式实现模型序列好坏的端到端判断。
关键观点3: 多模态生成式向量召回
多模态生成式向量召回结合扩散模型进行优化,在表征里结合扩散模型,通过用户历史点击图片信息还原用户潜在意识中的视觉信息,进而提高离线召回效率。
关键观点4: 未来发展方向
随着算力的提升,可以探索更大规模的生成式模型直接落地,同时也可以探索在线的端到端生成式召回,以优化多级漏斗带来的样本偏差和漏斗效率问题。
正文
-
特点
:第一,在一个业务范畴内,通过把技术做深能够取得业务效果的极大提升;第二是随着基建能力的提升,更多的是把召回由离线切换成在线,以此覆盖更多的流量;第三是在单通路的召回能力上,我们突破了传统单一NLP技术瓶颈,开始大规模使用个性化/图/多模态等新的召回技术。在2022年底,整个分层召回体系取得了不少成效。
-
缺点
:第一是整个召回体系还是以判别式召回模式为主,决策空间不够,倾向于学习历史数据行为,马太效应现象变得越来越严重,而且整个探索空间在这种判别式模型下面,局限性也越来越明显;第二是整个模型规模和容量相对不足,天花板很容易逼近;第三是采用多通道独立优化的方式,每个通道都有自己的样本特征,很难做到通道之间的融合,难以形成1+1>2的效果。
第三个阶段是
生成式召回
。核心思路是借鉴生成式大模型的思路和能力,改造现有的召回技术体系,长期上来看,我们会探索DSI新召回范式。
大模型在C端流量的落地,会遇到很多算力瓶颈。经过一年的探索,我们形成了大模型落地的方式和原则,分为三类。第一是离线用能力构建领域微调大模型;第二是在线用大模型技术思想,结合传统模型改造现有模型能力;第三是通过蒸馏方式,在线尽可能学习离线大模型能力,通过蒸馏方式把大模型通用知识蒸馏到在线规模相对较小的模型上。
面临的挑战包括三个方面:第一是有算力焦虑;第二是在模型规模变得越来越大的情况下,如何保证模型迭代效率;第三模型的变化不能发挥模型能力本身的优势,我们希望构建以大模型核心能力基础为核心的架构,拿到更好的效果,但改造成本较大。
美团搜索广告召回发展阶段
| 阶段一:多策略关键词挖掘
对于多策略关键词挖掘阶段,美团搜索广告的特点一是Query较短,平均长度也就两三个字,因为很多人在美团App搜索比如烧烤、西餐这种很泛但又很短的Query;二是流量分布比较集中,高频、Top几万的Query就占了大约70% ~ 80%的流量,头部效应比较明显;三是区别于业界传统的搜索广告,美团搜索广告商家没有买词能力,通常以整个店铺的投放模式为主。
基于这三个特点,我们设计了关键词挖掘策略思路。一由于Query很短,我们很容易通过信息抽取,把词或实体核心信息抽取出来;二是因为头部效应比较明显,Top2万的Query覆盖了很多流量,采用这种离线方式能快速拿到大部分收益;三是由于商家没有买词能力,如果用Query直接匹配商品,会涉及到传导文本匹配问题,匹配难度会更高,所以我们最后采用模型从商家商品里挖掘核心词,在线做短串匹配的方式。
如左下图所示的召回模式是离线,我们从广告或SPU里通过关键词挖掘的方式挖掘出关键词,在线通过Query改写的方式尽可能提升在线匹配效率。
具体来说,我们的关键词挖掘策略经历过三版迭代,按照技术由浅入深的方式做的。
-
早期第一版创建时,我们更多采用基于规则的挖掘式策略,把流量分成了商家词、商品词和品类词。商品词通过分词和词频贡献的算法,挖掘核心关键词,由于品类字面没有完全匹配的信息,我们通过互信息,构建词之间的权重去挖掘。但问题一是规则能力较弱;第二是只能挖掘出连续的短差,比如“炒西红柿鸡蛋”,它只能挖掘出“炒西红柿”,挖掘不出“炒鸡蛋”。
所以在快速落地了规则式挖掘策略后,我们开始用模型方法自动挖掘关键词。模型通常有两种,抽取式和生成式。
-
从准确性和数据局限考虑,先采用的是抽取式挖掘方式挖掘关键词,这经过了三个阶段的策略迭代。第一版将规则式升级为了模型挖掘方式,传统上叫序列标注模型,这种模型只能挖掘出连续短串,好处是挖掘效率比基于规则的挖掘模式高,但会导致很多关键词受限于连续短串的方式而挖掘不出来;后面做了两版突破连续短串的挖掘方式,分别是标注组合模型和指针组合模型。标注组合模型能够跨越连续短串挖掘,但它有一个顺序概念在里面;指针组合模型可以在原有短串里随机组合词,突破顺序和连续的局限。但抽取式模型的准确率较高,探索空间不足。