什么是试验数据?
展示所有试验相关的数据,包括试验配置里所选的指标数据,还有对试验数据的总结、评论等信息。
试验详情页
在试验列表,点击试验名称或点击操作 - 查看详情,进入试验详情页。
试验详情页展示试验类型、试验状态、试验运行时长、试验 ID、试验指标个数、试验层信息、试验分组流量比例,也可以查看帮助、查看操作记录、进行权限配置、添加自定义报告。
另外,在试验详情页,可以切换试验配置、试验数据、试验自定义报告三个模块。
在试验数据模块下,可以切换试验版本、下载整个试验数据的 pdf。
试验概述
试验概述部分呈现试验运行基本信息以及在试验运行周期内重要指标的表现情况,包括:试验版本数量(调整试验分组流量后会生成一个新的版本)、试验运行天数、已经统计显著的检验指标及版本。
试验备注功能,可以输入对于试验结果的描述、评价、下一步操作等等,或者任何内容,自由度高,可随时编辑。
总体:展示试验的所有流量。
分组流量:展示试验分组的流量。分组流量加和等于总体流量。
计算口径:
试验类型 |
总体 |
分组 |
---|---|---|
编程试验、可视化试验、多链接试验 | 累计进组去重用户数 | 分组内累计去重用户数 |
多人群试验 | 累计进组去重用户数 |
分组内累计去重用户数 因用户属性变更,用户可能跳版本,取的是该用户最后一次进入的试验组做计算 |
时间片轮转试验 | 各分组流量加和 |
分组内累计去重用户数 |
- 该表格展示所选条件下用户进组的分流 ID、进组时间(触发时间)、试验分组信息。
- 默认展示:当前所选条件下,最新进组用户,展示前 100 条,更多数据可点击 “下载数据”,将会下载所有符合条件的 csv 数据。
- 时间筛选:可选试验运行期间(包括运行中暂停),默认选择为查询当天。
- 试验分组选择:默认选择全部试验分组,可多选。
- 按 ID 搜索:可输入神策 ID、设备 ID、自定 ID,注意如不是按该 ID 类型分流的,则很可能该字段下无数据。
可按天 / 小时 / 分钟查看进组流量,提供表格、折线图、环图三种图表类型,提供所选时间范围内的合计、按时间粒度的数据。
- 天:默认展示试验上线日期至当天 T(如试验结束,到试验结束日期);可选范围:自「试验上线的日期」至「试验结束的日期」
- 小时:默认展示 T 日 0 点至当前小时的所有小时;可选:自「试验上线的日期」至「试验结束的日期」范围内最长 30 天
- 分钟:默认:默认展示 T 日 0 点至当前小时的所有分钟;可选:自「试验上线的日期」至「试验结束的日期」范围内最长 24 小时
1、置信区间的解读
置信区间用于描述试验组指标相比于对照组的提升范围。随着参与试验的样本量逐渐增加,数据指标波动趋于稳定,置信区间会逐渐收窄。
- 如果置信区间上下限均为正值,即图示选段在 0 的右侧,则表明试验结果为正向显著;
- 如果置信区间上下限均为负值,即图示选段在 0 的左侧,则表明试验结果为负向显著;
- 如果置信区间一正一负,即图示选段包含 0,则表明试验结果差异不显著
置信度用户衡量试验对检验指标进行统计学检验的严格程度。置信度越高,试验结果更加可信。
在试验过程中,针对不同的试验方案(或检验指标),通常对试验置信度要求不同,统计学上一般将置信度默认为 95%,可根据试验需求,在配置查询条件时,可选择置信度来观测统计表现。
置信度支持设置为 80%、85%、90%、95% 和 99%。
2、P-value 的解读
P 值就是 当对照组和试验组指标事实上相同(零假设成立)时,在 A/B 测试中用样本数据观测到的 “试验组和最对照组指标不同” 的概率。统计学上,将 5% 作为一个小概率事件,所以一般用 5% 来对比计算出来的 P 值。当 P 值小于 5% 时,拒绝零假设,即两组指标不同;反过来,当 P 值大于 5% 时,接受零假设,两组指标相同。
在 A/B 测试中,P 值越小说明统计结果越显著。
3、统计功效的解读
在统计理论中,统计功效 Power = 1–β,因为 β 表示发生第二类错误的概率,也就是说如果试验组和对照组的指标事实上是不同的,那么 Power 就表征能够探测到两者不同的概率(证明显著性是真实存在的概率)。
在 A/B 测试中,统计功效越大,说明试验结果越是真实可信的。
4、剩余样本量
在统计学意义上,通常认为试验功效达到 80%,试验结果就足够可信。在保持试验指标不变的情况下,提升试验样本量能够提升统计功效。
当试验中发现试验指标已经显著(或结果不显著证明策略无效),但功效还不足 80% 或低于预期目标,则一定程度说明样本量可能积累不足。此时报告中基于当前试验策略的指标提升,计算试验策略达到 80% 功效所需要的剩余样本量。
统计功效和剩余样本量应用建议:
- 试验指标提升(或下降)幅度越小,则达到 80% 功效所需的样本量就越大。
- 在实际试验中,往往不必刻意追求 80% 功效而过度延长试验周期,以免并且造成错过决策优胜策略的最佳时机,同时也避免试验流量的过度浪费。
漏斗指标选择说明:
- 最多支持展示一个漏斗指标。
- 支持选择试验的两个分组进行漏斗的对比查看,其中左侧为对比试验分组,可选项为所有试验组,右侧为被对比试验分组,可选项为实验组和对照组,置信区间计算的是左侧的试验组相对于右侧的试验组的提升范围,而非相对于对照组。
漏斗指标口径说明:
- 只有进组用户会参与漏斗转化和流失的计算,所以试验的漏斗的第一步也会有转化率、流失率以及用户数,表示的进组用户进入或没进入漏斗的比率
- 转化用户数 = 窗口期内完成前序步骤后,完成当前步骤的用户数
- 如果是第一步,则是用户进组后完成漏斗第一步的用户数,第一步用户数不考虑是否在窗口期内
- 转化率 = 当前步骤的转化用户数 / 前步骤的转化用户数
- 总转化率 = 最后一步的漏斗用户数 / 第一步漏斗用户数
- 流失用户数 = 窗口期内完成前序步骤后,未完成当前步骤的用户数
- 如果是第一步,则是用户进组后未完成漏斗第一步的用户数,第一步用户数不考虑是否在窗口期内
- 流失率 = 当前步骤的流失用户数 / 前步骤的转化用户数
临时查询
对于指标的数据,无论是检验指标还是业务指标,除了例行查询外,为方便分析人员进行进一步针对试验结果的分析,也提供临时查询的功能,同时可以发起最多 5 个临时查询,查询成功的临时查询结果保存最近 50 个。
例行查询:在试验运行期间,每天凌晨执行的默认系统查询条件(检验数据、业务数据各一个),查询结果将会在试验数据主页面展示的「统计检验分析」、「业务数据」展示,也可以在「历史查询」页面中查看。
临时查询:在试验上线之后,可以手动发起查询,查询结果只会展示在「历史查询」页面。
配置查询条件
入口:统计检验分析 - 配置查询条件;业务数据 - 配置查询条件
检验数据:
- 指标选择:可选已添加到试验的检验指标
- 试验版本:默认为当前试验版本
- 时间选择:按天,选择时间范围
- 用户筛选:支持用户属性、用户分群、用户标签的筛选
- 置信度:可切换不同的置信度,80%、85%、90%、95%、99%
- 对照组选择:默认为试验配置中的第一个分组
- 设为例行查询:在已有例行查询的情况下,勾选后,将会直接将本次临时查询替换为例行查询
业务数据:
- 指标选择:可选已添加到试验的检验指标
- 试验版本:默认为当前试验版本
- 时间选择:按天、按小时、按分钟的时间粒度,选择时间范围
- 用户筛选:支持用户属性、用户分群、用户标签的筛选
- 对照组选择:默认为试验配置中的第一个分组
- 设为例行查询:在已有例行查询的情况下,勾选后,将会直接将本次临时查询替换为例行查询
历史查询
入口:统计检验分析 - 历史查询;业务数据 - 历史查询
历史查询支持:
- 将查询结果支持导出、删除、复用并发起新查询
- 搜索、筛选查询结果
- 查看当前例行查询条件
在试验获得优胜版本后,通过发布计划可以将优胜策略灰度发布至全部受众用户。发布数据部分呈现试验在发布后的指标变化、发布用户量趋势。
通过发布数据,及时观测发布后业务指标是否符合与试验优胜策略一致。若发现发布后指标异常或不如预期时,可尽快做出调整,避免扩大损失。
发布数据里包含以下几部分数据:
- 各分组的累计用户数:统计截止到查看报告的当前,累计命中发布计划的用户数,其中包括发布策略和默认策略用户数。
- 发布用户量:发布用户量指每天累计命中发布计划的用户量。随着发布时间推移,累计总发布量逐渐上升。随着发布比例逐渐扩大,原本命中默认策略的用户可能会进入到发布策略中,导致命中默认策略的累计用户量下降。
- 指标数据:发布之后命中发布策略的用户在每日产生的业务指标数据。通过对业务指标数据的观测可以及时发现、调整问题,以降低发布风险。
- 漏斗指标数据:如试验中选择了漏斗指标,展示试验发布后每日的漏斗指标数据。
查看操作记录
支持查看试验操作记录。操作记录包括:操作内容、时间和操作账号。
具体操作内容包括:
- 试验上线
- 分组流量比例调整
- 试验进组比例调整
- 暂停试验
- 继续试验
- 修改参数值
- 指标变化记录
- 发布
- 发布比例调整
- 回滚
- 重新发布
- 下线
FAQ
1、为什么动态试验在调整分组流量或调小试验占层流量时,会生成新的报告版本重新开始统计?
动态试验分流策略不会记录用户历史命中的分流结果,在每次请求分流时,会根据试验设定的流量比例实时计算命中结果。
在某些特定场景中,若修改各个试验组的流量比例,会造成一部分已进组用户跳组;或者减小试验占层的比例是,造成已命中试验的用户出组。以上两种流量调整行为均会造成用户策略变更。
因为,为了保证试验统计科学性,会按照流量调整时间生成新的报告统计窗口,确保在一个统计版本周期内,试验用户命中的策略是一致的,最大程度避免统计误差。