1. 试验总览

1.1. 试验概述

试验概述部分呈现试验运行基本信息以及在试验运行周期内重要指标的表现情况。

1.2. 数据总览

报告总览用于呈现试验整体运行数据,包括试验概述、试验重要指标对比、统计检验分析数据和每日新进组用户数。

试验总览统计数据周期为试验上线至(T-1日)的数据。支持对试验数据进行时间维度筛选用户维度筛选,分析试验在不同时段、不同用户群体下的表现。

筛选默认可选范围计算口径
时间筛选

粘性试验:在试验上线期间,为「试验上线的日期」至「T-1日」 

非粘性试验:自「试验上线的日期」至「试验结束的日期」内的 & 该试验版本时间段

粘性试验:自「试验上线的日期」至「试验结束的日期」
非粘性试验:自「试验上线的日期」至「试验结束的日期」内的 & 该试验版本时间段内

进组用户数:在筛选的时间范围内,用户发生进组事件的去重用户数

指标数据:在筛选的时间范围内,用户发生进组事件 且 发生指标中所选事件,这些用户的指标结果数据

用户筛选无筛选用户属性、用户分群、用户标签

进组用户数:在筛选的时间范围内,用户经过用户筛选条件 且 发生进组事件的去重用户数

指标数据:在筛选的时间范围内,用户经过用户筛选条件 且 发生进组事件 且 发生指标中所选事件,这些用户的指标结果数据


1.2.1. 试验重要指标数据

在报告总览中,能够直接查看报告进组情况,并通过设定的重要指标变化,评估试验方案对业务的影响。

1.2.2. 统计学检验分析

综合试验运行时间、样本量、置信区间、统计功效等因素进行计算,客户可查看设置的多个支持统计学检验的指标中试验版本对比对照版本的表现。

1.2.2.1. 置信区间的解读

置信区间用于描述试验组指标相比于对照组的提升范围。随着参与试验的样本量逐渐增加,数据指标波动趋于稳定,置信区间会逐渐收窄。

  • 如果置信区间上下限均为正值,即图示选段在 0 的右侧,则表明试验结果为正向显著;
  • 如果置信区间上下限均为负值,即图示选段在 0 的左侧,则表明试验结果为负向显著;
  • 如果置信区间一正一负,即图示选段包含 0,则表明试验结果差异不显著

1.2.2.2. P-value的解读

P值就是 当对照组和试验组指标事实上相同(零假设成立)时,在A/B测试中用样本数据观测到的“试验组和最对照组指标不同”的概率。统计学上,将5%作为一个小概率事件,所以一般用5%来对比计算出来的P值。当P值小于5%时,拒绝零假设,即两组指标不同;反过来,当P值大于5%时,接受零假设,两组指标相同。

在AB测试中,P值越小说明统计结果越显著。

1.2.2.3. 统计功效的解读

在统计理论中,统计功效Power = 1–β,因为 β表示发生第二类错误的概率,也就是说如果试验组和对照组的指标事实上是不同的,那么Power就表征能够探测到两者不同的概率(证明显著性是真实存在的概率)。

在 A/B 测试中,统计功效越大,说明试验结果越是真实可信的。

1.2.2.4. 剩余样本量

在统计学意义上,通常认为试验功效达到80%,试验结果就足够可信。在保持试验指标不变的情况下,提升试验样本量能够提升统计功效。

当试验中发现试验指标已经显著(或结果不显著证明策略无效),但功效还不足80%或低于预期目标,则一定程度说明样本量可能积累不足。此时报告中基于当前试验策略的指标提升,计算试验策略达到80%功效所需要的剩余样本量。

统计功效和剩余样本量应用建议:

试验指标提升(或下降)幅度越小,则达到80%功效所需的样本量就越大。

在实际试验中,往往不必刻意追求80%功效而过度延长试验周期,以免并且造成错过决策优胜策略的最佳时机,同时也避免试验流量的过度浪费。

1.2.2.5. 调整置信度

置信度用户衡量试验对检验指标进行统计学检验的严格程度。置信度越高,试验结果更加可信。

在试验过程中,针对不同的试验方案(或检验指标),通常对试验置信度要求不同,统计学上一般将置信度默认为95%,可根据试验需求,调整置信度来观测统计表现。

置信度支持设置为80%、85%、90%、95%和99%。


1.2.2.6. 漏斗指标

AB0.8版本开始,支持配置漏斗指标,并支持漏斗指标在试验报告中的统计检验。

漏斗指标选择说明:

  • 最多支持展示一个漏斗指标。
  • 支持选择试验的两个分组进行漏斗的对比查看,其中左侧为对比试验分组,可选项为所有试验组,右侧为被对比试验分组,可选项为实验组和对照组,置信区间计算的是左侧的试验组相对于右侧的试验组的提升范围,而非相对于对照组。

漏斗指标口径说明:

  • 只有进组用户会参与漏斗转化和流失的计算,所以试验的漏斗的第一步也会有转化率、流失率以及用户数,表示的进组用户进入或没进入漏斗的比率
  • 转化用户数 = 窗口期内完成前序步骤后,完成当前步骤的用户数
    • 如果是第一步,则是用户进组后完成漏斗第一步的用户数,第一步用户数不考虑是否在窗口期内
  • 转化率 = 当前步骤的转化用户数/前步骤的转化用户数
    • 总转化率 = 最后一步的漏斗用户数/第一步漏斗用户数
  • 流失用户数 = 窗口期内完成前序步骤后,未完成当前步骤的用户数
    • 如果是第一步,则是用户进组后未完成漏斗第一步的用户数,第一步用户数不考虑是否在窗口期内
  • 流失率 = 当前步骤的流失用户数/前步骤的转化用户数


2. 试验流量

该报告里展示:实时累计进组流量、分时间颗粒度的进组流量、进组用户查询,可实时检测试验进组人数情况,及时发现流量分配问题。

2.1. 累计流量

展示累计的流量情况,试验在运行中(包括运行中暂停)时,每5分钟数据自动更新,不需要手动刷新页面。

总体:展示试验的所有流量。

分组流量:展示试验分组的流量。分组流量加和等于总体流量。

计算口径:

试验类型

总体

分组

编程试验、可视化试验、多链接试验累计进组去重用户数分组内累计去重用户数
多人群试验累计进组去重用户数

分组内累计去重用户数

因用户属性变更,用户可能跳版本,取的是该用户最后一次进入的试验组做计算

时间片轮转试验各分组流量加和

分组内累计去重用户数


2.2. 试验流量

可查询天/小时/分钟级别的进组流量。

  • 天:默认展示试验上线日期至当天T(如试验结束,到试验结束日期);可选范围:自「试验上线的日期」至「试验结束的日期」
  • 小时:默认展示T日0点至当前小时的所有小时;可选:自「试验上线的日期」至「试验结束的日期」范围内最长30天
  • 分钟:默认:默认展示T日0点至当前小时的所有分钟;可选:自「试验上线的日期」至「试验结束的日期」范围内最长24小时

2.3. 进组用户列表

该表格展示所选条件下用户进组的分流ID、进组时间(触发时间)、试验分组信息。

默认展示:当前所选条件下,最新进组用户,展示前100条,更多数据可点击“下载数据”,将会下载所有符合条件的csv数据。

时间筛选:可选试验运行期间(包括运行中暂停),默认选择为查询当天。

试验分组选择:默认选择全部试验分组,可多选。

按ID搜索:可输入神策ID、设备ID、自定ID,注意如不是按该ID类型分流的,则很可能该字段下无数据。


3. 业务报告

3.1. 业务数据

为了同步观测试验期间的常用业务数据的情况,可在「业务报告-业务数据」中查看所有业务指标的报告,便于用户快速浏览业务指标变化情况。 

3.2. 实时数据

对于实时性较强的试验,例如电商618活动秒杀试验场景,需要在试验上线后进行短期高频指标数据观测,可以通过「业务报告-实时数据」进行小时和分钟粒度的数据观测,来进一步指导试验决策。

数据查看范围:

  • 小时级数据支持查看试验运行过程中任意一段30天的小时数据变化趋势;
  • 分钟级数据支持查看试验运行过程中某一天(即当天24小时内)的分钟数据变化趋势。

3.3. 自定义报告

通过自选指标和观测时间范围,进行主题式分析逻辑的构建,从而帮助产出或分享试验洞察 。

3.3.1. 添加自定义报告

可根据试验分析主题,构建自助业务分析看板。

最多支持添加 10 个自定义报告,其中每个报告最多支持添加 20 个指标。

4. 发布报告

在试验获得优胜版本后,通过发布计划可以将优胜策略灰度发布至全部受众用户。发布报告部分呈现试验在发布后的指标变化、发布用户量趋势。

通过发布报告数据,及时观测发布后业务指标是否符合与试验优胜策略一致。若发现发布后指标异常或不如预期时,可尽快做出调整,避免扩大损失。

4.1. 基础信息

基础信息统计截止到当前,累计命中发布计划的用户数,其中包括发布策略和默认策略用户数。

4.2. 发布用户量趋势

发布用户量指每天累计命中发布计划的用户量。随着发布时间推移,累计总发布量逐渐上升。

随着发布比例逐渐扩大,原本命中默认策略的用户可能会进入到发布策略中,导致命中默认策略的累计用户量下降。

4.3. 业务指标变化趋势

试验发布之后命中发布策略的用户在每日产生的业务指标数据。通过对业务指标数据的观测可以及时发现、调整问题,以降低发布风险。

5. 试验报告下载

支持下载试验PDF报告和Excel数据。

6. 数据更新

6.1.1. 自动更新

试验总览、业务数据、自定义报告:

  • 离线计算,默认计算试验上线 至 T-1 日数据,数据计算截止于 T日的00:00:01(如有延迟上报数据,不会纳入计算)。
  • 实时计算,切换了试验时间(比如选择试验运行期间的某2天数据)、进行用户筛选,点击查询按钮,会进行实时计算(如有延迟上报数据,会纳入计算)。

实时数据:在每次查看时,进行实时计算。

6.1.2. 手动更新

点击「刷新」按钮,如更新了本试验的指标、修改了指标口径时,会重新进行实时计算。


7. 查看操作记录

支持查看试验操作记录。操作记录包括:操作内容、时间和操作账号。

具体操作内容包括:

  • 试验上线
  • 分组流量比例调整
  • 试验进组比例调整
  • 暂停试验
  • 继续试验
  • 修改参数值
  • 指标变化记录
  • 发布
  • 发布比例调整
  • 回滚
  • 重新发布
  • 下线

8. FAQ

8.1. 试验上线后,多久可以查看数据报告?

试验上线后,在试验运行期间(试验结束或下线后不包含在内),只要有用户进组,即可查看「实时数据」报告里的业务指标数据,「试验总览」和「业务报告」为T+1数据,次日可查看。

8.2. 为什么非粘性试验在调整分组流量或调小试验占层流量时,会生成新的报告版本重新开始统计?

非粘性试验分流策略不会记录用户历史命中的分流结果,在每次请求分流时,会根据试验设定的流量比例实时计算命中结果。

在某些特定场景中,若修改各个试验组的流量比例,会造成一部分已进组用户跳组;或者减小试验占层的比例是,造成已命中试验的用户出组。以上两种流量调整行为均会造成用户策略变更。

因为,为了保证试验统计科学性,会按照流量调整时间生成新的报告统计窗口,确保在一个统计版本周期内,试验用户命中的策略是一致的,最大程度避免统计误差。