1. 什么是试验指标配置

试验指标配置是试验上线之前,在神策 A/B Testing 系统上进行试验创建操作中的必要步骤,目的是将规划好的需要观测的试验指标在系统侧进行配置。通常我们在做试验设计方案时,就已设计好需要观测的试验指标,因此,在做试验指标配置时应严格依照设计文档中的需求进行操作。

如果您有一个新的试验,但不知晓如何设计这个试验的指标,可查阅官方帮助文档中的另一篇文章:指标设计指南

2. 试验指标类型说明

神策 A/B Testing 系统可支持配置的指标可分为两类形式:

  • 单一指标:由某一个事件组成的指标,例如「APP启动」次数,「订单支付」用户数,「参与活动」人均次数等。

  • 组合指标:由多个事件的指标组合计算得到,例如常见的运营位CTR=「点击运营位」次数/「运营位曝光」次数,购买转化率=「支付订单」用户数/「商品浏览」用户数

3. 试验创建过程中的指标配置操作

3.1. 添加试验指标

在神策 A/B Testing 试验列表,点击“创建试验”、“编辑试验”或点击具体试验名称进入试验编辑页面后,可在第二个步骤「配置关注指标」处进行试验指标的配置。

  • 如果需要添加单一指标,点击“+指标”按钮进行添加
  • 如果需要添加组合指标,点击“+自定义指标”进行添加

具体配置方位如下图:

3.2. 配置指标内容

  • 配置单一指标

点击“+指标”按钮后,选择对应的「事件」和指标,完成单一指标的配置。试验指标的可用事件范围和神策分析的事件分析模型中可用事件范围一致,具体可查看神策分析系统的元数据管理模块。

  • 配置组合指标

点击“+自定义指标”按钮后,添加了自定义指标,自定义指标默认为分子/分母公式,可以对公式进行自定义编辑,最终指标结果展示方式可以选择百分比、小数及取整,完成自定义指标配置后点击指标后方的保存按钮,如下图:

备注:自定义指标支持常规的四则运算,包括加减乘除及括号,可以支持2个及以上的指标之间进行任意四则运算。

3.3. 配置核心指标

神策 A/B Testing 内置统计学检验,支持对试验指标的核心指标进行显著性检验,在试验指标配置过程中,可选择将某一个符合统计学检验要求的指标设置为核心指标,如下图:

可支持显著性检验的指标类型:

  • 单一指标:

「事件」的人均次数:用户进入试验后,「事件」发生总次数/发生「事件」的用户数,如人均浏览次数

「事件」的人均值:用户进入试验后,「事件」发生的某属性值的总和/发生「事件」的用户数,如人均支付金额

「事件」的次均值:用户进入试验后,「事件」发生的某属性值的总和/「事件」发生的总次数,如次均支付金额

  • 组合指标:

「事件A」用户数 /「事件B」用户数

「事件A」总次数 /「事件B」总次数

「事件A」总次数 /「事件B」用户数

「事件A」总次数 /「事件B」属性值总和

「事件A」属性值总和 /「事件B」用户数

「事件A」属性值总和 /「事件B」总次数

「事件A」属性值总和 /「事件B」属性值总和

不支持显著性检验的指标类型:

  • 单一指标:

「事件」总次数

「事件」用户数

「事件」属性值总和

  • 组合指标:

自定义指标最后计算步骤不是分子/分母类型,包含加减乘等运算,例如“指标A/指标B-指标C”

确定是否支持设置核心指标的方法:

(1)是否支持设置为核心指标,除了以上的判断外,可以直接通过指标配置完成后是否显示“设为核心指标”提示来判断,如下图:

(2)也可以根据选择核心指标的下拉框是否显示相应指标判断是否可以设置为核心指标,不可选代表不能设置为核心指标,如下图:

4. 常见试验指标的配置示例

以「进入直播间」、「充值结果」事件,及「充值结果」事件的“充值金额”属性为例

序号指标类型含义示例配置示例是否可设置核心指标
1「事件」的总次数用户进入试验后,发生「事件」的总次数充值次数

2「事件」的用户数用户进入试验后,发生「事件」的用户数充值用户数

3「事件」的属性值求和用户进入试验后,发生「事件」的属性值的总和充值总金额

4「事件」的人均次数用户进入试验后,「事件」发生总次数/发生「事件」的用户数人均充值次数

5「事件」的人均值用户进入试验后,「事件」发生的某属性值的总和/发生「事件」的用户数人均充值金额

6「事件」的次均值用户进入试验后,「事件」发生的某属性值的总和/「事件」发生的总次数次均充值金额

7「事件A」用户数/「事件B」用户数用户进入试验后,发生「事件A」的用户数/发生「事件B」的用户数用户充值转化率

8「事件A」总次数/「事件B」总次数用户进入试验后,「事件A」发生的总次数/「事件B」发生的总次数次充值转化率

5. 其他使用场景下的试验指标操作

5.1. 试验指标的新增/删除/修改

(1)创建试验时(草稿状态),可随时在试验创建界面进行指标新增、删除、修改操作,但必须点击“完成”进行保存。

(2)创建试验后(调试中、运行中、暂停状态),也可随时在试验创建界面进行指标新增、删除、修改操作,但必须点击“完成”进行保存,保存之后再进入试验报告,试验报告将实时进行更新,按新的配置规则生成试验报告。

5.2. 试验指标的查看

在神策A/B Testing试验列表页面,对于“运行中”、“暂停”和“已结束”的试验,可以点击操作栏的“查看报告”,进入试验报告页面,查看试验配置的指标表现。

如果您想了解如何解读试验报告,请查阅:试验报告

6. 试验指标的计算口径解读

6.1. 如何准确理解人均值、次均值、用户转化率、用户次转化率的指标口径,它们有什么现实意义?

根据统计学原理,A/B 测试本身是在做一次抽样测试,而抽取的样本由一个个的个体组成(即指标设计中的“试验单位”)。作为试验工具,我们需要保证分流使用的试验单位和出具报告所使用的试验单位是一致的。因此,有小伙伴提出,为什么神策会支持次均值、次转化率这类指标,这岂不是和试验单位一致性的原则相违背了么?

我们通过以下两个案例来理解,实际上配置的所谓次均值、次转化率,其全称应该是人均次均值,人均次转化率,其并不违背试验单位的一致性原则。

6.1.1. 案例一:理解人均值、次均值(人均次均值)

(1)人均值的场景:假设我们进行一个充值打折试验,仅仅是期望能提升用户的充值金额,我们将核心指标配置为「充值结果的充值金额的人均值」

它的基础数据如下:

事件序号组别用户行为金额
1试验组

A

充值50
2试验组A充值100
3试验组B充值50
4对照组C充值50
5对照组C充值50
6对照组D充值30


我们得到的,细到试验单位的数值是:

组别试验单位充值金额试验单位值
试验组A用户50+100150
试验组

B用户

5050
对照组C用户50+50

100

对照组D用户3030


我们实际上用于统计学检验的试验组和对照组数据是

组别

试验样本集

(用于计算均值、方差、标准差)

人均充值金额

(均值统计量)

试验组150,50200/2 = 100
对照组100,30130/2 = 65

最终我们是使用试验组和对照组的「样本集」和「统计量」去做统计学相关的数学运算,计算出均值、方差、标准差等统计量。

(2)人均次均值的场景:假设我们进行一个充值红包试验,期望通过一定的红包使用门槛来提升单次的充值金额,我们将核心指标配置为「充值结果的充值金额的次均值」。

它的基础数据如下:(假设行为数值和前例完全一致)

事件序号组别用户行为金额
1试验组

A

充值50
2试验组A充值100
3试验组B充值50
4对照组C充值50
5对照组C充值50
6对照组D充值30


我们得到的,细到试验单位的数值是:

组别试验单位充值金额试验单位值
试验组A用户50+100150/2 =75
试验组

B用户

5050/1 =50
对照组C用户50+50

100/2 =50

对照组D用户3030/1 =30


请注意,在这一步我们就发现了和之前场景的不同,每个试验单位的值是需要除以一个次数,来观测是不是在单次充值的场景下,金额有了提升。

我们实际上用于统计学检验的试验组和对照组数据是:

组别

试验样本集

(用于计算均值、方差、标准差)

人均次均充值金额

(均值统计量)

试验组75,50125/2 = 62.5
对照组50,3080/2 = 40

最终我们是使用试验组和对照组的「样本集」和「统计量」去做统计学相关的数学运算,计算出均值、方差、标准差等统计量。所以,虽然这里配置的指标名称叫「次均值」,但最终还是需要回归到试验单位上,即所有的数据指标,其实都是自带「人均」算法的。

6.1.2. 案例二:理解用户转化率、次转化率(用户次转化率)

(1)用户转化率的场景:假设我们进行一个充值页面样式试验,期望能提升用户的充值转化率,我们将核心指标配置为「用户充值转化率」(充值用户数 / 充值页面浏览用户数)

它的基础数据如下:

事件序号组别用户行为
1试验组

A

充值页面浏览
2试验组A充值成功
3试验组B充值页面浏览
4试验组B充值成功
5对照组C充值页面浏览
6对照组C充值成功
7对照组D充值页面浏览


我们得到的,细到试验单位的数值是:

组别试验单位是否转化
试验组A用户
试验组

B用户

对照组C用户
对照组D用户


我们实际上用于统计学检验的试验组和对照组数据是:

组别

试验样本集

用户转化率(统计量)

试验组是、是2/2 = 100%
对照组是、否1/2 =50%

最终我们是使用试验组和对照组的「样本集」和「统计量」去做统计学相关的数学运算,计算出转化率等统计量(服从二项分布)。

(2)用户次转化率的场景:假设我们进行一个内容推荐算法试验,期望能提升兴趣的精准度,影响用户对内容的点击转化率(如,原本我们每推给用户10条内容,但用户只会点击其中2条,现在我们期望他能提升到3条以上),我们将核心指标配置为「用户内容点击次数转化率」(内容点击次数 / 内容曝光次数)

它的基础数据如下:

事件序号组别用户行为
1试验组

A

内容曝光
2试验组

A

内容曝光
3试验组A内容点击
4试验组B内容曝光
5试验组B内容点击
6对照组C内容曝光
7对照组C内容曝光
8对照组D内容曝光
9对照组D内容点击


我们得到的,细到试验单位的数值是:

组别试验单位试验单位值
试验组A用户1/2 = 50%
试验组

B用户

1/1 = 100%
对照组C用户0/2 = 0%
对照组D用户1/1 = 100%


我们实际上用于统计学检验的试验组和对照组数据是:

组别

试验样本集

人均次转化率(统计量)

试验组50%、100%(50%+100%)/ 2 = 75%
对照组0%、100%(0%+100%)/ 2 =50%

最终我们是使用试验组和对照组的「样本集」和「统计量」去做统计学相关的数学运算,计算出人均转化率等统计量(正态分布)。

在这两个场景中,可以明显发现「用户转化率」的场景是服从二项分布的,即试验单位只有两种可能性(转化、不转化),而「人均次转化率」实际上就是人均值,是有无穷可能性的(服从正态分布)。