试验设计概述
什么是试验设计?
试验设计是试验人员详尽地描述期望实施的试验具体细节的过程。类似于产品经理的需求设计工作,该项工作是我们在进入代码开发之前的一个必要环节。只有做好了试验设计工作,才能够使我们的试验想法正确地在我们的程序上落地。
什么是试验设计文档?
试验设计文档,是我们将试验需求和执行细节描述清楚并逐项和各相关方确认后的流程产出物。
它的作用包括以下几个方面:
- 试验前的设计:基于业务目标,描述试验的想法来源、执行过程,确认需要进行开发的工作内容和优先级排序。
- 试验中的配置:作为试验的配置方法说明,指导试验人员在神策 A/B 测试平台上进行配置操作。
- 试验后的复盘:记录试验的背景信息,如想法来源、对结果预期的论证思路等,方便试验后进行阶段性复盘,助力调整后续的试验方向。
基于丰富的交付经验,神策为每位客户都提供了《A/B试验需求模版》,可以帮助我们梳理清楚相关信息。
试验设计文档编写方法
试验设计文档通常由业务人员先行梳理,在技术评审时,同技术人员协作进行修改及最终确认。
文档由四个部分组成:
- 试验基本信息:需填写试验的基本信息、唯一标识、试验目标、试验假设与 ICE 评分。
- 试验配置信息:需填写试验指标、归属试验层、预估试验周期、试验流量圈选条件等信息(该部分也会在试验平台上进行配置)
- 试验策略设计:需填写试验参数的变量名与取值,以及各试验组流量分配比例。(该部分也会在试验平台上进行配置)
- 其他开发需求:如有其他开发需求,可添加在此。(如弹窗 A/B 测试,可能涉及到运营后台系统的逻辑变更等额外需求)
试验基本信息
① 试验名称&编号:为您的试验起一个名称与编号。
- 试验名称,建议事先在团队内部 制定命名规范;如试验名称以“业务模块_试验名称”、“业务团队_试验名词”等格式来命名。(示例:“支付页_支付按钮颜色”、“算法团队_推荐算法试验”)。
- 试验编号,建议试验编号与神策 A/B 测试中的试验 ID 保持一致(在神策 A/B 测试中创建完成试验时,会自动分配一个试验ID),方便快速查找对应的试验报告。
② 试验目标:准确表述本次试验希望达成的目标,一般以 XX 指标提升/降低作为试验的量化目标。同时建议可以结合当前业务阶段,以及试验想法来源依据,对试验背景进行简要阐述。
③ 试验假设:准确表述试验假设的理论依据以及逻辑链路。如,由于用户对页面中动态的模块更加敏感,所以将商品介绍视频放在商详页中,可以增加用户停留时长,从而增加加购率。
④ 试验打分:当有多个 A/B 试验,需要做优先级排序时,建议采用 ICE 模型进行打分。该打分模型分为三个部分:
- Impact 预计影响:试验成功后,影响面有多大。(例如,试验受众的覆盖范围、与核心指标的关联程度等)
- Confidence 成功概率:预估试验成功的概率有多大。(例如,试验的依据来源于数据洞察、竞品调研等,是否信息更充足)
- Ease 容易程度:试验需要投入多少的资源才能上线。
每个部分的分值范围为0-10,最终进行加和,得到该试验的总得分。从大到小进行排序,得分越高的试验,优先级应当越高。具体的评分规则与权重,可以按照实际情况进行调整。
试验配置信息
此部分填写完成后,该表格可以指导您或您的同事,在 A/B 测试系统中进行新试验的配置。
① 试验类型:有编程试验、可视化试验、多链接试验
② 预计运行周期:在试验开始前,可先对试验运行时长进行大致估计。当该 A/B 试验排期确定后,修改为实际上线的时间与时长。估计试验时长,是为了在保证 A/B 试验得出有效结论的同时,尽量缩短试验周期,在一定时间内做更多的 A/B 试验,以充分利用流量。
估计方法,需要考虑最小样本量,以及核心指标的周期性波动的影响。在满足最小样本量的条件下,建议设为周/月的整数倍,以消除核心指标周期性波动的影响,同时也保证进组的用户,更近似于所有用户的随机抽样。(有关A/B试验最小样本量计算方法,可以通过网络途径搜索相关信息)
③ 归属试验层:设置该 A/B 试验所在的试验层。需遵循两个不同试验层的试验,试验结果互不影响、相互独立的原则。如两个试验互相影响,则应放在同一个试验层内,以保证流量互斥。(了解试验层的基本概念及创建的具体方法,可查阅 试验层管理)
④ 试验指标:指试验过程中需要观测的指标,如 转化率、人均金额等。
从指标定义方式上,可以分为:
- 检验类指标,用于统计学检验,科学判定试验版本成败。可使用「转化率」、「人均值」、「人均事件均值」、「人均事件比值」生成方式配置。请明确分子分母,以便判断埋点是否需要新增或改造,通常情况下统计粒度为参与试验的用户(特殊场景可以和神策分析师共同探讨确定)。
- 业务类指标,用于全面观测试验过程中的业务变化。可使用「事件分析」、「留存分析」的生成方式配置。
从试验指标的决策作用的角度来看,我们会分为3类试验指标:核心指标、相关指标、护栏指标。
- 核心指标:用于直接评价试验成败与否的指标;通常是短期的、比较敏感的、有很强可操作性的指标,可直接评价 A/B 测试结果。
- 相关指标:同时关注的其他业务指标,通常起到辅助作用,便于更全面地观测业务变化,尤其是了解试验带来的结构变化和伴生影响,帮助我们更好地进行归因。
- 护栏指标:反向实际上是相关指标内较特殊的一种,通常是能反映用户体验受到伤害的指标,常常拥有“一票否决权”,帮助我们平衡试验决策。
⑤ 试验流量类型&人群圈选:
参与试验流量类型(即选择目标受众)有两种:
- 随机流量试验:试验实施前不圈定用户,只当用户进入试验场所时对用户进行准入判断,如,用户是否满足筛选条件 「首日访问」为「真」。
- 设置筛选条件:支持用户属性、预置属性(预置属性由SDK自动采集,包括:操作系统、设备信息属性、首次访问渠道属性、地域属性和是否首日访问属性)和自定义属性(高级功能,需配置开启)。
- 不设置筛选条件:触发试验的用户都进入试验,不做条件筛选。
- 用户分群试验:按照一定规则圈选用户,可选择在神策分析和神策用户画像产品中创建的用户分群作为可进入试验用户的名单。
需要注意,若圈选的用户分群为按规则更新的分群,则试验受众会动态更新。即新进入用户分群的用户会进入试验,而已经命中试验的用户仍保持命中试验和分组不变。(例如,圈选 VIP 用户进行试验,在试验上线后新增的 VIP 用户会被更新进入到试验的受众中;若已在 VIP 分群中并命中试验分组的用户,后续变为普通用户,在试验生命周期内仍将处于试验状态并保持分组不变。)
大多数情况下 A/B 试验都为「随机流量试验」,当您想要针对特定用户分群进行 A/B 测试时,可以选择「用户分群试验」流量类型。
试验策略设计
这部分主要确定设计哪些试验分组、流量分配的方案,以及设计合适的试验参数。此部分内容依据试验类型而有所不同,因此在策略设计前首先需确定 A/B 试验类型。
目前神策 A/B Testing 支持多种类型的试验,分别为:
- 编程试验:是指通过代码编程,来实现试验版本的差异进行 A/B 测试。适用范围广,自定义程度高,但缺点在于依赖于代码发版,开发成本高。
- 多链接试验:是指用户根据 A/B 分流结果,访问不同 url 的试验。常用于 Web / H5 落地页优化。
- 可视化试验:可直接在 Web/H5 网页下,通过可视化方式,直接圈选、修改元素的可视化效果。如,页面中的图片、文字、颜色等。试验版本效果可视化展现,同时免除了编程试验中开发的工作量。
编程试验
① 确定试验分组
确定本次 A/B 试验设置多少个试验分组。在最简单的情况下,需要保证设置对照组与至少一个试验组。
② 流量分配的方案
请确保各试验组分别和对照组相比是否大致是 1:1 关系。
如您需要控制一定比例的流量进入试验,请在「选取受众用户 -> 进组比例」中设置。
默认策略,是指当请求 A/B 分流接口没有返回试验分组信息时,为保证程序的正常运行所展示的版本,进入该策略的用户不参与 A/B 试验指标的统计。
③ 设计合适参数
参数设置应遵循以下原则:
在试验运行期间,一个参数只能应用于一个试验,不能出现一个参数同时应用于多个试验的情况,以避免出现“参数撞车”。
参数类型和参数值的设置,应便于技术同学实现代码的开发。
如有同一点位多次进行 A/B 试验的情况,设计参数时,应考虑参的复用性。
更详细的参数设计方法,可阅读:参数设计指南
多链接试验
① 确定试验分组
确定本次 A/B 试验设置多少个试验分组,即有多少个参与试验的页面。在最简单的情况下,即对照组页面和一个试验组变体页面。
② 流量分配的方案
请确保各试验组分别和对照组相比是否大致是 1:1 关系。
如您需要控制一定比例的流量进入试验,请在「选取受众用户 -> 进组比例」中设置。
默认策略,是指当请求 A/B 分流接口没有返回试验分组信息时,为保证程序的正常运行所展示的页面(一般等同于对照组页面),进入该策略的用户不参与 A/B 试验指标的统计。
③ 设置对应 URL(试验 URL、对照组 URL、试验组 URL)
试验相关 URL 设置指导:
- 试验 URL:代表用户触发试验的 URL
- URL 匹配方式:提供「精确匹配」和「模糊匹配」两种方式
- 模糊匹配:当用户访问的原始页面 URL 与试验URL(试验平台填写的试验URL)的域名、路径和文件扩展名(.html,.php等)相同时,即可命中试验。模糊匹配方式忽略了协议(http、https)、参数( ? 后面的字符串)、锚点(# 后面的字符串)和尾斜杠。
- 精确匹配:默认的匹配方式,当用户访问的 URL 与试验 URL 完全一致时,才会命中试验。
- 对照组 URL:试验 URL 默认作为对照组 URL。当用户访问的 URL 与试验 URL 匹配时,若该用户分流结果为对照组用户,则页面不再进行跳转。(当前访问页面即为对照组页面)
- 试验组 URL:当用户访问的 URL 与试验 URL 匹配,若该用户分流结果为试验组,则会跳转到对应的试验组URL页面。
- 版本描述:用于描述试验分组之间的差异,可以文字描述、粘贴图片。建议将对应组别的试验点位,截图放入并搭配上对应的文字描述。
更详细的关于多链接试验URL的说明,可查阅:多链接试验-URL匹配方式
可视化试验
① 确定试验分组
确定本次 A/B 试验设置多少个试验分组。在最简单的情况下,需要保证设置对照组与至少一个试验组。
② 流量分配的方案
请确保各试验组分别和对照组相比是否大致是 1:1 关系。
如您需要控制一定比例的流量进入试验,请在「选取受众用户 -> 进组比例」中设置。
默认策略,是指当请求 A/B 分流接口没有返回试验分组信息时,为保证程序的正常运行所展示的版本,进入该策略的用户不参与 A/B 试验指标的统计。
③ 设置对应 URL
试验 URL 设置指导:
- 试验 URL:代表用户触发试验的 URL,该URL内的内容会作为试验版本的基准(对照组),相关试验组版本的展现内容会在对照组的基础上修改而成。
更详细的关于可视化试验URL的说明,可查阅:可视化试验-URL匹配方式
④ 描述版本信息
- 描述试验分组之间的差异,可以文字描述、粘贴图片。建议将对应组别的试验点位,截图放入并搭配上对应的文字描述。
- 其中文字描述,可参考下图中的可修改项,描述各版本的差异。图片则直接截图贴上。
其他开发需求
如有其他开发需求,则在此进行补充描述。
常见问题
缺少 A/B 试验的想法,应该从哪里开始做测试?
答:推荐您从以下两种角度进行思考
- 结合当前的业务阶段与业务目标,在用户路径的核心节点或流程上,进行试验。
- 通过数据分析、头脑风暴、竞品分析等方法,确定试验点位。
常见的试验点位有:页面布局、图案颜色、图片、文案、字体、运营策略、定价形式、营销测试、推荐算法等。
在一个页面 URL 上同时上线多链接试验和编程试验,可行吗?
答:不建议,因为多链接试验命中试验组后会发生页面跳转,如果没有考虑得较为周全的埋点方案,极易存在数据埋点丢失风险,这将有可能造成编程试验报告的数据不准。