1. 前言

当我们决定做一次A/B试验时,在统计学意义上,我们是在做一次抽样统计。即抽出一小部分的样本,观测他们的表现来用于预测整体的情况。那么,做抽样统计时,我们观测指标的方式有什么不同,本篇将为您讲解抽样统计和A/B测试之间的关系,并介绍指标的计算原理。

2. 抽样检验与 A/B 测试

2.1. 抽样检验

抽样检验又称抽样检查,是从一批产品中随机抽取少量产品(样本) 进行检验,据以判断该批产品是否合格的统计方法和理论。它与全面检验不同之处,在于后者需对整批产品逐个进行检验,把其中的不合格品拣出来,而抽样检验则根据样本中的产品的检验结果来推断整批产品的质量,相比全面检验会更加省时省力。(出自百度百科)

2.2. A/B 测试

A/B测试的本质就是一种抽样检验。因为做 A/B 测试的目的是测试一个不确定的产品设计对用户产生的效果,肯定不会直接应用到全量用户身上,所以我们需要在全量用户中随机抽取一部分用户来进行试验,看他们对这个设计的反应。因为这部分用户是随机抽取的,抽样用户的偏好也能代表全量用户的偏好,所以我们可以由这部分用户的反应来推测全量的用户的反应。

3. 抽样统计的基本指标

3.1. 理解单次抽样的样本和描述样本的指标

假设1:我们从要研究的总体中随机抽取10个个体组成样本,并探究【这个样本】的性质。

这里存在3个概念:

  • 总体:我们希望研究的终极对象,通常组成它的个体数量比较多,因此若要进行枚举式研究很困难。
  • 样本:从要研究的总体中,抽取出来一部分的个体组成样本。样本可理解为总体的一个子集,我们期望通过样本的结果来推测总体情况。
  • 个体:组成总体、样本的不可再拆分的最小单位,通常每个个体都会有自己的性质。

经过抽样之后,我们得到了一个样本(内含10个个体,即样本容量为10),每个个体的数值为:

单次抽样的个体值序列样本容量
2,5,6,7,3,7,4,5,7,910

那么我们会使用哪些指标来衡量这个样本的数值情况呢?通常会有「样本均值」「样本方差」「样本标准差」三种指标

  • 样本均值:该指标是样本的平均水平,在一定程度上它也可以作为统计总体的平均水平的参考值(只要足够随机,它就具有一定的代表性)


  • 样本方差:我们会使用该指标衡量各个体距离样本均值之间的波动情况(离散程度),如果方差比较大,则这些样本点互相之间的差异就比较大。

  • 样本标准差:是样本方差的算数平方根,其衡量作用和方差类似。


在只做一次抽样的情况下,我们可以从这个样本(包含10个个体)中,得到一组确切的「样本均值」「样本方差」「样本标准差」值。

那么只做一回抽样会不会不太准?是的,所有人都有这个担忧,因此我们倾向于“多!抽!几!回!”。

3.2. 理解多次抽样的样本和多次抽样后得到的指标

假设2:我们从要研究的总体中继续随机抽取个体组成样本,例如我们抽取10回,那么就会得到10组数值。

回合个体值序列 (每回个体数量 > 30)样本均值
第1回2,5,... ...,7,95.5
第2回2,8,... ...,7,84.7
第3回6,7,... ...,4,64.9
第4回3,2,... ...,4,85.0
第n回... ......

经过统计学家的实践总结,只要我们每回抽取的样本容量足够大(样本中的个体数量 > 30),样本的均值就会倾向于呈现正态分布。现在,我们可以忘记掉所有的个体而专注于样本凝聚而成的均值序列,假设我们已经抽取了N回样本,并每回都计算出了样本均值,然后进入下一个假设。

假设3:我们从要研究的总体中继续随机抽取N回样本(每回都有50个个体),其中每回均值为:5.5,4.7,4.9,5,4.8,...(共N个)

我们最终又得到了一组数值,是由各组样本的均值构成的序列,针对这个序列我们可以计算出:

  • 样本均值的均值:

  • 样本均值的方差:

  • 样本均值的标准误差:

最终我们将所有的均值放在一张图上,会发现他们将呈现正态分布的倾向(足够多个均值),而且有些「均值点」会距离「样本均值的均值」特别远,但他们的数量比较少,有些「均值点」距离「样本均值的均值」特别近,但数量比较多。那么出现在远处的概率和近处的概率分别时多少呢?

基于正态分布曲线算得的数据:

  • 落在距离「样本均值的均值」1倍「样本均值的标准差」以内的概率是68.2%
  • 落在距离「样本均值的均值」2倍「样本均值的标准差」以内的概率是95.4%
  • 落在距离「样本均值的均值」3倍「样本均值的标准差」以内的概率是99.7%

换言之,如图所示,我们随便抽一次样本,它的均值出现在远处的概率是非常小的。因此,一旦出现了出现在远处的值,我们一般认为这个样本不是来自这个总体的样本,它们之间是有显著差异的。

当然,「认为小概率事件一定不会发生」一定是有代价的。可它虽会犯错误,现实条件下我们却有只有信和不信两种选择。若我们知道买彩票中奖的机会有80%,哪怕有可能会空手而归,代价可控的情况下我们还是会去买。那么如何科学地去做买和不买的决策,并去控制犯错误的可能性?这就是我们在 假设检验与置信区间 中会讲到的假设检验。

4. 常见问题列表

4.1. 我们做的试验期望提升交易金额,但是从数据上观测发现,交易金额的用户分布是严重左偏的(用户在金额少的区间聚集),为什么还可以使用正态分布进行检验?

答:根据3.2节的内容,虽然样本的总体是偏态的,但我们是把多次抽样得到的多个均值进行了排列,而不是个体本身的数值进行排列,因此他们在符合条件时会呈现正态分布而与总体的形态无关。