试验总览

试验概述

试验概述部分呈现试验运行基本信息以及在试验运行周期内重要指标的表现情况。

数据总览

报告总览用于呈现试验整体运行数据,包括试验概述、试验重要指标对比、统计检验分析数据和每日新进组用户数。

试验总览统计数据周期为试验上线至(T-1日)的数据。支持对试验数据进行时间维度筛选用户维度筛选,分析试验在不同时段、不同用户群体下的表现。

试验重要指标数据

在报告总览中,能够直接查看报告进组情况,并通过设定的重要指标变化,评估试验方案对业务的影响。

统计学检验分析

综合试验运行时间、样本量、置信区间、统计功效等因素进行计算,客户可查看设置的多个支持统计学检验的指标中试验版本对比对照版本的表现。

置信区间的解读

置信区间用于描述试验组指标相比于对照组的提升范围。随着参与试验的样本量逐渐增加,数据指标波动趋于稳定,置信区间会逐渐收窄。

  • 如果置信区间上下限均为正值,即图示选段在 0 的右侧,则表明试验结果为正向显著;
  • 如果置信区间上下限均为负值,即图示选段在 0 的左侧,则表明试验结果为负向显著;
  • 如果置信区间一正一负,即图示选段包含 0,则表明试验结果差异不显著

P-value的解读

P值就是 当对照组和试验组指标事实上相同(零假设成立)时,在A/B测试中用样本数据观测到的“试验组和最对照组指标不同”的概率。统计学上,将5%作为一个小概率事件,所以一般用5%来对比计算出来的P值。当P值小于5%时,拒绝零假设,即两组指标不同;反过来,当P值大于5%时,接受零假设,两组指标相同。

在AB测试中,P值越小说明统计结果越显著。

统计功效的解读

在统计理论中,统计功效Power = 1–β,因为 β表示发生第二类错误的概率,也就是说如果试验组和对照组的指标事实上是不同的,那么Power就表征能够探测到两者不同的概率(证明显著性是真实存在的概率)。

在 A/B 测试中,统计功效越大,说明试验结果越是真实可信的。

剩余样本量

在统计学意义上,通常认为试验功效达到80%,试验结果就足够可信。在保持试验指标不变的情况下,提升试验样本量能够提升统计功效。

当试验中发现试验指标已经显著(或结果不显著证明策略无效),但功效还不足80%或低于预期目标,则一定程度说明样本量可能积累不足。此时报告中基于当前试验策略的指标提升,计算试验策略达到80%功效所需要的剩余样本量。

统计功效和剩余样本量应用建议:

试验指标提升(或下降)幅度越小,则达到80%功效所需的样本量就越大。

在实际试验中,往往不必刻意追求80%功效而过度延长试验周期,以免并且造成错过决策优胜策略的最佳时机,同时也避免试验流量的过度浪费。

调整置信度

置信度用户衡量试验对检验指标进行统计学检验的严格程度。置信度越高,试验结果更加可信。

在试验过程中,针对不同的试验方案(或检验指标),通常对试验置信度要求不同,统计学上一般将置信度默认为95%,可根据试验需求,调整置信度来观测统计表现。

置信度支持设置为80%、85%、90%、95%和99%。


漏斗指标

AB0.8版本开始,支持配置漏斗指标,并支持漏斗指标在试验报告中的统计检验。

漏斗指标选择说明:

  • 最多支持展示一个漏斗指标。
  • 支持选择试验的两个分组进行漏斗的对比查看,其中左侧为对比试验分组,可选项为所有试验组,右侧为被对比试验分组,可选项为实验组和对照组,置信区间计算的是左侧的试验组相对于右侧的试验组的提升范围,而非相对于对照组。

漏斗指标口径说明:

  • 只有进组用户会参与漏斗转化和流失的计算,所以试验的漏斗的第一步也会油转化率、流失率以及用户数,表示的进组用户进入或没进入漏斗的比率
  • 转化用户数 = 窗口期内完成前序步骤后,完成当前步骤的用户数
    • 如果是第一步,则是用户进组后完成漏斗第一步的用户数,第一步用户数不考虑是否在窗口期内
  • 转化率 = 当前步骤的转化用户数/前步骤的转化用户数
    • 总转化率 = 最后一步的漏斗用户数/第一步漏斗用户数
  • 流失用户数 = 窗口期内完成前序步骤后,未完成当前步骤的用户数
    • 如果是第一步,则是用户进组后未完成漏斗第一步的用户数,第一步用户数不考虑是否在窗口期内
  • 流失率 = 当前步骤的流失用户数/前步骤的转化用户数


每日新进组人数趋势

统计口径及统计意义:用户所选时间范围内的每日新进组人数(每日新增的,不是历史累计的),区别多天累计数据,每日新进组人数趋势可直接计算每天进组的新用户数,可间接验证分流是否均匀。

  • 例如:用户A在2022年1月1日新进组,2022年1月2日再次进组,则2022年1月1日统计该用户算新增进组人数,2022年1月2日则不统计该用户为新增进组人数; 

业务报告

业务数据

为了同步观测试验期间的常用业务数据的情况,可在「业务报告-业务数据」中查看所有业务指标的报告,便于用户快速浏览业务指标变化情况。 

实时数据

对于实时性较强的试验,例如电商618活动秒杀试验场景,需要在试验上线后进行短期高频指标数据观测,可以通过「业务报告-实时数据」进行小时和分钟粒度的数据观测,来进一步指导试验决策。

数据查看范围:

  • 小时级数据支持查看试验运行过程中任意一段30天的小时数据变化趋势;
  • 分钟级数据支持查看试验运行过程中某一天(即当天24小时内)的分钟数据变化趋势。

自定义报告

通过自选指标和观测时间范围,进行主题式分析逻辑的构建,从而帮助产出或分享试验洞察 。

添加自定义报告

可根据试验分析主题,构建自助业务分析看板。

最多支持添加 10 个自定义报告,其中每个报告最多支持添加 20 个指标。

发布报告

在试验获得优胜版本后,通过发布计划可以将优胜策略灰度发布至全部受众用户。发布报告部分呈现试验在发布后的指标变化、发布用户量趋势。

通过发布报告数据,及时观测发布后业务指标是否符合与试验优胜策略一致。若发现发布后指标异常或不如预期时,可尽快做出调整,避免扩大损失。

基础信息

基础信息统计截止到当前,累计命中发布计划的用户数,其中包括发布策略和默认策略用户数。

发布用户量趋势

发布用户量指每天累计命中发布计划的用户量。随着发布时间推移,累计总发布量逐渐上升。

随着发布比例逐渐扩大,原本命中默认策略的用户可能会进入到发布策略中,导致命中默认策略的累计用户量下降。

业务指标变化趋势

试验发布之后命中发布策略的用户在每日产生的业务指标数据。通过对业务指标数据的观测可以及时发现、调整问题,以降低发布风险。

试验报告下载

支持下载试验PDF报告和Excel数据。

数据更新

自动更新

试验总览、业务数据、自定义报告默认支持 T-1 日数据,默认为凌晨自动更新(可查看数据更新时间)。

实时数据在每次查看时,进行实时查看。

手动更新

点击「刷新」按钮,主动更新查看当前最新计算数据。

查看操作记录

支持查看试验操作记录。操作记录包括:操作内容、时间和操作账号。

具体操作内容包括:

  • 试验上线
  • 分组流量比例调整
  • 试验进组比例调整
  • 暂停试验
  • 继续试验
  • 修改参数值
  • 指标变化记录
  • 发布
  • 发布比例调整
  • 回滚
  • 重新发布
  • 下线

FAQ

试验上线后,多久可以查看数据报告?

试验上线后,只要有用户进组,即可查看「实时数据」报告,「试验总览」和「业务报告」为T+1数据,次日可查看。