专栏名称: 美团技术团队
10000+工程师,如何支撑中国领先的生活服务电子商务平台?数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑?这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。
目录
相关文章推荐
架构师之路  ·  爸爸!除了你,沈括,沈万三... ... ·  2 天前  
字节跳动技术团队  ·  掘金 AI 编程社区- 人人都是 AI 编程家竞赛 ·  昨天  
字节跳动技术团队  ·  ByteBrain团队EuroSys25 ... ·  2 天前  
InfoQ Pro  ·  Redis 之父:哪怕被喷我也得说,AI ... ·  2 天前  
51好读  ›  专栏  ›  美团技术团队

可信实验白皮书系列02:AB实验基础

美团技术团队  · 公众号  · 架构  · 2025-05-22 19:58

正文

请到「今天看啥」查看全文


Hypothesis testing )是统计学中用数据论证某假设是否成立的方法,在工程、医学、社会科学等多个领域广泛应用。假设检验本质可理解为反证法,有点类似于法庭的评理,想象法庭上有一名被告,在开始无信息时假设被告是清白的( 原假设 ),而检察官必须要提出足够的证据去证明被告的确有罪。如果没有足够的信息和证据证明被告有罪,那么判定原假设:被告清白成立。除非检察官提供足够的证据才判定被告有罪。统计学家Fisher提过一个女士品茶的假设检验著名例子,一名女士声称其可以品尝出奶茶制作过程中是先加入茶还是先加入牛奶。Fisher提议给她八杯奶茶,并告知其中四杯先加茶,四杯先加牛奶,但随机排列,需要女士说出这八杯奶茶中,哪些先加牛奶,哪些先加茶。原假设是该女士无法判断奶茶中的茶先加入还是牛奶先加入,根据猜中的次数判断该假设是否成立。结果女士测试结果为八杯品尝都正确。在原假设下若单纯以概率考虑,八杯都正确的概率为1/70( 因为8选4的组合数是70 ),约1.43%,即原假设成立下统计上完全猜对可能性极小,单次测试基本上不会发生,即几乎排除女士完全盲猜正确的可能,因此我们有理由去拒绝“该女士无法判断奶茶中的茶先加入还是牛奶先加入”的假设。

类似的,假设检验在AB实验中通常被作为基本工具论证新策略是否相对旧策略会带来业务收益。例如当测试一个新的App广告设计是否能提高用户点击率时,通常原假设新策略相对旧策略无效,然后收集现有证据--样本数据去论证实验组和对照组之间是否具有显著的差异,如果拥有足够证据——实验组对照组差异很大( 这在新策略无效下基本上不太可能出现 ),则推翻“新策略相对旧策略无效”的假设,否则认为在现有证据——样本信息下接受原假设成立,除非收集更多证据( 样本数据 )再“重新开庭论证”。一个完整的假设检验主要包括以下几个步骤:

1. 提出假设

  • 原假设( Null Hypothesis,通常选择为默认结论或者需推翻的结论 )H0:实验组与对照组无差异,表示策略无效果。
  • 备择假设( Alternative Hypothesis,通常为想被证明的结论 )H1:实验组与对照组有差异,也可考虑单边备择假设H1:实验组>对照组,或者H1:实验组

2. 选择显著性水平

显著性水平(α)指能容忍的犯第一类错误的概率,其中第一类错误是指在原假设为真时,拒绝原假设的犯错,又称假阳性。显著性水平是人为定义或指定的概率值,学业界常见的显著性水平为0.05。

3. 构造检验统计量

根据样本数据和假设类型,选择合适的检验统计量,AB实验中最常用的方式为双样本t检验。例如在探索某策略是否会带来单量增长时,按用户随机对照试验可考虑构造检验统计量:

其中方差计算常用算法包括Delta方法、Bootstrap、Jackknife方法等,当然检验方式也包括参数检验、非参数检验等。

4. 计算拒绝域和p值

拒绝域是指在假设检验中拒绝原假设的检验统计量的取值范围,其通常依赖于显著性水平等。尽管可通过判断检验统计量观测值是否落在拒绝域决策拒绝/接受原假设,假设检验实际应用中通常考虑一个更常用的标准——P值。P值表示在原假设为真时,比所得到的统计量观察结果更极端的概率。其计算逻辑为先推导出在原假设H0成立条件下检验统计量的概率分布( 在AB实验场景可以想象为,在策略无效场景下,假设允许做无数次实验,每次实验独立执行分组机制,并且得到一个检验统计量,基于若干次实验得到的若干个检验统计量观测值画图,即得到H0下且在对应实验分组机制下的检验统计量的概率分布。现实中可通过一些极限理论等统计定理性质来基本近似获得原假设H0成立条件下检验统计量的概率分布 ),然后再计算观察到比当前样本下检验统计量观测值更极端的概率,直观上也可理解为在原假设成立情况下,出现当前观测值及更极端场景的概率,如果很小则意味着原假设成立下单次实验不太能出现的小概率事件发生了,需质疑甚至拒绝原假设。

5. 作出决策

假设检验的核心思想反证法,理论上小概率事件在一次实验中几乎不可能发生,如果发生了则说明原假设不合理。因此可通过比较p值与显著性水平α:

  • 如果p值 ≤ α,拒绝原假设,支持备择假设。
  • 如果p值 > α,接受原假设,拒绝备择假设。

| 2.2.3 极限理论

极限理论是假设检验与置信区间等过程中构建统计量分布的理论基础,是统计学中一个庞大且内容丰富的关键模块。由于主题和篇幅的限制,本白皮书将不对其进行深入探讨,仅简要介绍几个常用的原理。读者也可选择跳过本部分内容。

大数定律(Strong Law of Large Numbers) :假设 是一组独立同分布的随机变量,每个变量的期望值为 且方差有限。根据强大数定律,当样本量 趋于无穷大时,样本均值几乎必然收敛于总体均值:

其中: 是样本均值,a.s.表示几乎处处收敛( almost sure convergence ), 是总体均值。强大数定律描述了独立同分布随机变量的样本均值几乎必然收敛于总体均值的现象。

中心极限定理(Lindeberg-Levy Central Limit Theorem) :假设 是一组独立同分布的随机变量,每个变量的期望值为







请到「今天看啥」查看全文