指标配置指南
|
收藏
1. 什么是试验指标配置
试验指标配置是试验上线之前,在神策 A/B Testing 系统上进行试验创建操作中的必要步骤,目的是将规划好的需要观测的试验指标在系统侧进行配置。通常我们在做试验设计方案时,就已设计好需要观测的试验指标,因此,在做试验指标配置时应严格依照设计文档中的需求进行操作。
如果您有一个新的试验,但不知晓如何设计这个试验的指标,可查阅官方帮助文档中的另一篇文章:指标设计指南
2. 试验指标的配置流程
流程1(建议):进入指标管理模块,创建指标,在试验配置时引用该指标。具体操作可参考:试验指标管理
流程2:进入试验创建页面,创建指标(自动绑定到该试验)。
3. 试验指标类型说明
3.1. 按统计学属性区分类型
在神策 A/B Testing 系统的试验指标配置中,体现的是按统计学属性区分的类型,不同类型有不同的配置模板。
从是否可以参与统计学检验出发,分为2类试验指标:
指标类型 | 含义 | 口径差异 | 生成方式 | 举例 | 建议使用场景 |
---|---|---|---|---|---|
检验类指标 | 符合统计学分布规则的,可用于统计学检验,科学判定试验效果的指标。 |
| 神策 A/B Testing 系统提供的模板:转化率、人均值、人均事件均值、人均事件比值。 | 点击率、购买率、人均使用时长、人均交易金额等 | 对比试验组之间的差异,判定试验的效果 |
业务类指标 | 用于全面观测试验过程中的业务变化情况,不参与统计学检验。 |
| 神策 A/B Testing 系统提供的模板:事件分析、留存分析。 | 页面DAU、首页浏览次数、业务GMV等 | 监测试验对业务的整体影响 |
检验类指标可以细分为:
检验指标大类 | 服从统计分布 | 检验指标类型 | 指标定义 |
---|---|---|---|
转化率 | 二项分布 | 转化率 | 试验用户中有多少比例的用户发生了指定转化事件。 |
人均值 | 正态分布 | 人均值 | 平均到每个试验用户,关于某指定事件次数或该事件属性的度量值。 |
人均事件均值 | 平均到每个试验用户,关于某个事件的次均度量值。 | ||
人均事件比值 | 平均到每个试验用户,关于某两事件度量值的比值。 |
如在web端做试验,指标配置的解决方案可参考:Web端试验指标配置说明
3.2. 重要指标概念
在试验观测过程中,可配置能传递试验价值的指标,希望阅读报告的人可以重点关注,类型选择上可以是检验类指标,也可以是业务类指标,起到【突出重要信息】的作用。
4. 常见试验指标的配置示例
以「进入直播间」、「充值结果」事件,及「充值结果」事件的“充值金额”属性为例
序号 | 选择指标生成方式 | 指标属性 | 指标配置 | 含义 | 示例 | 配置示例 |
---|---|---|---|---|---|---|
1 | 事件分析 | 业务类指标 | 「事件」的总次数 | 用户进入试验后,发生「事件」的总次数 | 充值次数 | |
2 | 事件分析 | 业务类指标 | 「事件」的用户数 | 用户进入试验后,发生「事件」的用户数 | 充值用户数 | |
3 | 事件分析 | 业务类指标 | 「事件」的属性的度量 | 用户进入试验后,发生「事件」的属性值的总和 | 充值总金额 | |
4 | 人均值 | 检验类指标 | 参与试验用户的「事件」的人均次数 | 用户进入试验后,「事件」发生总次数/参与试验的用户数 | 人均充值次数 | |
5 | 人均值 | 检验类指标 | 参与试验用户的「事件」的人均值 | 用户进入试验后,「事件」发生的某属性的度量/参与试验的用户数 | 人均充值金额 | |
6 | 人均事件均值 | 检验类指标 | 参与试验用户的「事件」的次均值 | 用户进入试验后,[「事件」发生的某属性值的度量/「事件」发生的总次数] / 参与试验的用户数 | 次均充值金额 | |
7 | 转化率 | 检验类指标 | 参与试验用户的某「事件」的转化 | 用户进入试验后,发生「事件A」的用户数/参与试验的用户数 | 用户充值转化率 | |
8 | 人均事件比值 | 检验类指标 | 参与试验用户的「事件」度量之间的比值 | 用户进入试验后,[「事件A」发生的总次数/「事件B」发生的总次数]/ 参与试验的用户数 | 次充值转化率 |
5. 试验指标的计算口径解读
5.1. 如何准确理解人均值、人均事件均值、转化率、人均事件比值的指标口径,它们有什么现实意义?
根据统计学原理,A/B 测试本身是在做一次抽样测试,而抽取的样本由一个个的个体组成(即指标设计中的“试验单位”)。作为试验工具,我们需要保证分流使用的试验单位和出具报告所使用的试验单位是一致的。因此,有小伙伴提出,为什么神策会设置多种检验类指标配置的模板,就是为了符合指标口径与试验单位一致性的原则。
我们通过以下两个案例来理解:
5.1.1. 案例一:理解人均值、人均事件均值
(1)人均值的场景:假设我们进行一个充值打折试验,期望能提升用户的充值金额,我们将指标配置为「检验类」指标,通过的「人均值」模板配置,指标名为“人均充值金额”,具体指标口径配置如下:
试验的基础数据如下:
事件序号 | 组别 | 用户 | 行为 | 金额 |
---|---|---|---|---|
1 | 试验组 | A | 充值 | 50 |
2 | 试验组 | A | 充值 | 100 |
3 | 试验组 | B | 充值 | 50 |
4 | 对照组 | C | 充值 | 50 |
5 | 对照组 | C | 充值 | 50 |
6 | 对照组 | D | 充值 | 30 |
我们得到的,聚合到试验单位(用户)的数值是:
组别 | 试验单位 | 充值金额 | 试验单位值 |
---|---|---|---|
试验组 | A用户 | 50+100 | 150 |
试验组 | B用户 | 50 | 50 |
对照组 | C用户 | 50+50 | 100 |
对照组 | D用户 | 30 | 30 |
我们实际上用于统计学检验的试验组和对照组数据是
组别 | 试验样本集 | 指标结果 |
---|---|---|
试验组 | 150,50 | 200/2 = 100 |
对照组 | 100,30 | 130/2 = 65 |
最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果。
(2)人均事件均值的场景:假设我们进行一个充值红包试验,期望通过一定的红包使用门槛来提升单次的充值金额,我们将指标配置为「检验类」指标,通过的「人均事件均值」模板配置,指标名为“人均充值事件的单次金额”,具体指标口径配置如下:
它的基础数据如下:(假设行为数值和前例完全一致)
事件序号 | 组别 | 用户 | 行为 | 金额 |
---|---|---|---|---|
1 | 试验组 | A | 充值 | 50 |
2 | 试验组 | A | 充值 | 100 |
3 | 试验组 | B | 充值 | 50 |
4 | 对照组 | C | 充值 | 50 |
5 | 对照组 | C | 充值 | 50 |
6 | 对照组 | D | 充值 | 30 |
我们得到的,细到试验单位的数值是:
组别 | 试验单位 | 充值金额 | 试验单位值 |
---|---|---|---|
试验组 | A用户 | 50+100 | 150/2 =75 |
试验组 | B用户 | 50 | 50/1 =50 |
对照组 | C用户 | 50+50 | 100/2 =50 |
对照组 | D用户 | 30 | 30/1 =30 |
请注意,在这一步我们就发现了和之前场景的不同,每个试验单位的值是需要除以一个事件的次数,来观测是不是在单次充值的场景下,金额有了提升。
我们实际上用于统计学检验的试验组和对照组数据是:
组别 | 试验样本集 | 指标结果 |
---|---|---|
试验组 | 75,50 | 125/2 = 62.5 |
对照组 | 50,30 | 80/2 = 40 |
最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果。
5.1.2. 案例二:理解用户转化率、人均事件比值
(1)用户转化率的场景:假设我们进行一个充值页面样式试验,期望能提升用户的充值转化率,我们将指标配置为「检验类」指标,通过的「转化率」模板配置,指标名为“充值转化率”,具体指标口径配置如下:
它的基础数据如下:
事件序号 | 组别 | 用户 | 行为 |
---|---|---|---|
1 | 试验组 | A | 充值页面浏览 |
2 | 试验组 | A | 充值成功 |
3 | 试验组 | B | 充值页面浏览 |
4 | 试验组 | B | 充值成功 |
5 | 对照组 | C | 充值页面浏览 |
6 | 对照组 | C | 充值成功 |
7 | 对照组 | D | 充值页面浏览 |
我们得到的,聚合到试验单位的数值是:
组别 | 试验单位 | 是否转化 |
---|---|---|
试验组 | A用户 | 是 |
试验组 | B用户 | 是 |
对照组 | C用户 | 是 |
对照组 | D用户 | 否 |
我们实际上用于统计学检验的试验组和对照组数据是:
组别 | 试验样本集 | 指标结果 |
---|---|---|
试验组 | 是、是 | 2/2 = 100% |
对照组 | 是、否 | 1/2 =50% |
最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果(服从二项分布)。
(2)人均事件比值的场景:假设我们进行一个搜索结果算法试验,期望能提升用户对搜索结果的兴趣,影响用户对单次搜索的点击转化率(如,原本用户只点击1次搜索结果,现在我们期望他能点击到3条以上),我们将指标配置为「检验类」指标,通过的「人均事件比值」模板配置,指标名为“单次搜索点击转化率”,具体指标口径配置如下:
它的基础数据如下:
事件序号 | 组别 | 用户 | 行为 |
---|---|---|---|
1 | 试验组 | A | 搜索结果曝光 |
2 | 试验组 | A | 搜索结果曝光 |
3 | 试验组 | A | 搜索结果点击 |
4 | 试验组 | B | 搜索结果曝光 |
5 | 试验组 | B | 搜索结果点击 |
6 | 对照组 | C | 搜索结果曝光 |
7 | 对照组 | C | 搜索结果曝光 |
8 | 对照组 | D | 搜索结果曝光 |
9 | 对照组 | D | 搜索结果点击 |
我们得到的,聚合到试验单位的数值是:
组别 | 试验单位 | 试验单位值 |
---|---|---|
试验组 | A用户 | 1/2 = 50% |
试验组 | B用户 | 1/1 = 100% |
对照组 | C用户 | 0/2 = 0% |
对照组 | D用户 | 1/1 = 100% |
我们实际上用于统计学检验的试验组和对照组数据是:
组别 | 试验样本集 | 人均次转化率(统计量) |
---|---|---|
试验组 | 50%、100% | (50%+100%)/ 2 = 75% |
对照组 | 0%、100% | (0%+100%)/ 2 =50% |
最终我们是使用试验组和对照组的「样本集」去做统计学相关的数学运算,按配置口径得到指标结果(正态分布)。
在这两个场景中,可以明显发现「转化率」的场景是服从二项分布的,即试验单位只有两种可能性(转化、不转化),而「人均事件比值」实际上就是人均值,是有无穷可能性的(服从正态分布)。
注:本文档内容为神策产品使用和技术细节说明文档,不包含适销类条款;具体企业采购产品和技术服务内容,以商业采购合同为准。