1. 什么是试验指标配置

试验指标配置是试验上线之前,在神策 A/B Testing 系统上进行试验创建操作中的必要步骤,目的是将规划好的需要观测的试验指标在系统侧进行配置。通常我们在做试验设计方案时,就已设计好需要观测的试验指标,因此,在做试验指标配置时应严格依照设计文档中的需求进行操作。

如果您有一个新的试验,但不知晓如何设计这个试验的指标,可查阅官方帮助文档中的另一篇文章:指标设计指南

2. 试验指标的配置流程

流程1(建议):进入指标管理模块,创建指标,在试验配置时引用该指标。具体操作可参考:试验指标管理


流程2:进入试验创建页面,创建指标(自动绑定到该试验)。

3. 试验指标类型说明

3.1. 按统计学属性区分类型

在神策 A/B Testing 系统的试验指标配置中,体现的是按统计学属性区分的类型,不同类型有不同的配置模板。

从是否可以参与统计学检验出发,分为2类试验指标:

指标类型含义口径差异生成方式举例建议使用场景
检验类指标符合统计学分布规则的,可用于统计学检验,科学判定试验效果的指标。
  • 试验单元颗粒度:衡量到参与试验的每一个试验单元的表现(根据选择的分流主体变化,可以是用户,也可以是设备)。
  • 统计周期:试验单元首次进入试验后的数据表现(首次触发$ABTestTrigger事件之后的数据计算进内)。
神策 A/B Testing 系统提供的模板:转化率、人均值、人均事件均值、人均事件比值。点击率、购买率、人均使用时长、人均交易金额等对比试验组之间的差异,判定试验的效果
业务类指标用于全面观测试验过程中的业务变化情况,不参与统计学检验。
  • 试验单元颗粒度:衡量整体参与试验的试验单元表现(根据选择的分流主体变化,可以是用户,也可以是设备)。
  • 统计周期:观测整个试验运行周期内的试验单元的行为数据(不限制$ABTestTrigger事件与其他指标选定事件的先后顺序)。
神策 A/B Testing 系统提供的模板:事件分析、留存分析。页面DAU、首页浏览次数、业务GMV等监测试验对业务的整体影响


检验类指标可以细分为:

检验指标大类服从统计分布

检验指标类型

指标定义

转化率二项分布

转化率

试验用户中有多少比例的用户发生了指定转化事件。


人均值


正态分布

人均值

平均到每个试验用户,关于某指定事件次数或该事件属性的度量值。

人均事件均值

平均到每个试验用户,关于某个事件的次均度量值。

人均事件比值

平均到每个试验用户,关于某两事件度量值的比值。


如在web端做试验,指标配置的解决方案可参考:Web端试验指标配置说明

3.2. 重要指标概念

在试验观测过程中,可配置能传递试验价值的指标,希望阅读报告的人可以重点关注,类型选择上可以是检验类指标,也可以是业务类指标,起到【突出重要信息】的作用。 

4. 常见试验指标的配置示例

以「进入直播间」、「充值结果」事件,及「充值结果」事件的“充值金额”属性为例

序号选择指标生成方式指标属性指标配置含义示例配置示例
1事件分析业务类指标「事件」的总次数用户进入试验后,发生「事件」的总次数充值次数

2事件分析业务类指标「事件」的用户数用户进入试验后,发生「事件」的用户数充值用户数

3事件分析业务类指标「事件」的属性的度量用户进入试验后,发生「事件」的属性值的总和充值总金额

4人均值检验类指标参与试验用户的「事件」的人均次数用户进入试验后,「事件」发生总次数/参与试验的用户数人均充值次数

5人均值检验类指标参与试验用户的「事件」的人均值用户进入试验后,「事件」发生的某属性的度量/参与试验的用户数人均充值金额

6人均事件均值检验类指标参与试验用户的「事件」的次均值用户进入试验后,[「事件」发生的某属性值的度量/「事件」发生的总次数] / 参与试验的用户数次均充值金额

7转化率检验类指标参与试验用户的某「事件」的转化用户进入试验后,发生「事件A」的用户数/参与试验的用户数用户充值转化率

8人均事件比值检验类指标参与试验用户的「事件」度量之间的比值用户进入试验后,[「事件A」发生的总次数/「事件B」发生的总次数]/ 参与试验的用户数次充值转化率


5. 试验指标的计算口径解读

5.1. 如何准确理解人均值、人均事件均值、转化率、人均事件比值的指标口径,它们有什么现实意义?

根据统计学原理,A/B 测试本身是在做一次抽样测试,而抽取的样本由一个个的个体组成(即指标设计中的“试验单位”)。作为试验工具,我们需要保证分流使用的试验单位和出具报告所使用的试验单位是一致的。因此,有小伙伴提出,为什么神策会设置多种检验类指标配置的模板,就是为了符合指标口径与试验单位一致性的原则。

我们通过以下两个案例来理解:

5.1.1. 案例一:理解人均值、人均事件均值

(1)人均值的场景:假设我们进行一个充值打折试验,期望能提升用户的充值金额,我们将指标配置为「检验类」指标,通过的「人均值」模板配置,指标名为“人均充值金额”,具体指标口径配置如下:

试验的基础数据如下:

事件序号组别用户行为金额
1试验组

A

充值50
2试验组A充值100
3试验组B充值50
4对照组C充值50
5对照组C充值50
6对照组D充值30

我们得到的,聚合到试验单位(用户)的数值是:

组别试验单位充值金额试验单位值
试验组A用户50+100150
试验组

B用户

5050
对照组C用户50+50

100

对照组D用户3030

我们实际上用于统计学检验的试验组和对照组数据是

组别

试验样本集

指标结果

试验组150,50200/2 = 100
对照组100,30130/2 = 65

最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果。

(2)人均事件均值的场景:假设我们进行一个充值红包试验,期望通过一定的红包使用门槛来提升单次的充值金额,我们将指标配置为「检验类」指标,通过的「人均事件均值」模板配置,指标名为“人均充值事件的单次金额”,具体指标口径配置如下:

它的基础数据如下:(假设行为数值和前例完全一致)

事件序号组别用户行为金额
1试验组

A

充值50
2试验组A充值100
3试验组B充值50
4对照组C充值50
5对照组C充值50
6对照组D充值30

我们得到的,细到试验单位的数值是:

组别试验单位充值金额试验单位值
试验组A用户50+100150/2 =75
试验组

B用户

5050/1 =50
对照组C用户50+50

100/2 =50

对照组D用户3030/1 =30

请注意,在这一步我们就发现了和之前场景的不同,每个试验单位的值是需要除以一个事件的次数,来观测是不是在单次充值的场景下,金额有了提升。

我们实际上用于统计学检验的试验组和对照组数据是:

组别

试验样本集

指标结果

试验组75,50125/2 = 62.5
对照组50,3080/2 = 40

最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果。

5.1.2. 案例二:理解用户转化率、人均事件比值

(1)用户转化率的场景:假设我们进行一个充值页面样式试验,期望能提升用户的充值转化率,我们将指标配置为「检验类」指标,通过的「转化率」模板配置,指标名为“充值转化率”,具体指标口径配置如下:

它的基础数据如下:

事件序号组别用户行为
1试验组

A

充值页面浏览
2试验组A充值成功
3试验组B充值页面浏览
4试验组B充值成功
5对照组C充值页面浏览
6对照组C充值成功
7对照组D充值页面浏览

我们得到的,聚合到试验单位的数值是:

组别试验单位是否转化
试验组A用户
试验组

B用户

对照组C用户
对照组D用户

我们实际上用于统计学检验的试验组和对照组数据是:

组别

试验样本集

指标结果

试验组是、是2/2 = 100%
对照组是、否1/2 =50%

最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果(服从二项分布)。

(2)人均事件比值的场景:假设我们进行一个搜索结果算法试验,期望能提升用户对搜索结果的兴趣,影响用户对单次搜索的点击转化率(如,原本用户只点击1次搜索结果,现在我们期望他能点击到3条以上),我们将指标配置为「检验类」指标,通过的「人均事件比值」模板配置,指标名为“单次搜索点击转化率”,具体指标口径配置如下:

它的基础数据如下:

事件序号组别用户行为
1试验组

A

搜索结果曝光
2试验组

A

搜索结果曝光
3试验组A搜索结果点击
4试验组B搜索结果曝光
5试验组B搜索结果点击
6对照组C搜索结果曝光
7对照组C搜索结果曝光
8对照组D搜索结果曝光
9对照组D搜索结果点击

我们得到的,聚合到试验单位的数值是:

组别试验单位试验单位值
试验组A用户1/2 = 50%
试验组

B用户

1/1 = 100%
对照组C用户0/2 = 0%
对照组D用户1/1 = 100%

我们实际上用于统计学检验的试验组和对照组数据是:

组别

试验样本集

人均次转化率(统计量)

试验组50%、100%(50%+100%)/ 2 = 75%
对照组0%、100%(0%+100%)/ 2 =50%

最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果(正态分布)。

在这两个场景中,可以明显发现「转化率」的场景是服从二项分布的,即试验单位只有两种可能性(转化、不转化),而「人均事件比值」实际上就是人均值,是有无穷可能性的(服从正态分布)。