类型 | 名词 | 解释 | 更多参考 |
---|---|---|---|
基本知识 | A/B 试验 | (名词)特指为了某个验证目标而发起的某一个 A/B 测试。 | |
试验管理 | 在 A/B 试验系统中,对一个试验进行完整的生命周期管理。一般会从试验创建开始,直到试验结束,每一个阶段对应一种试验状态,用户可操作试验的状态对试验进行管理。 | ||
试验状态 | 指某一个A/B 试验在系统中的状态,一般分为四个主要阶段:试验未上线前阶段(包含状态:草稿、调试中、准备中、上线失败)、试验正在进行中阶段(包含状态:运行中、运行中暂停)、试验发布阶段(已包含状态:已发布、已发布暂停、待发布)、试验结束(包含状态:已结束)。 | ||
试验组、对照组 | 也称为变体,试验组和对照组是相对的概念,在一个试验里,通常现有的旧策略为对照组,新策略为试验组。试验组可以是多个,对照组通常只有一个。 | ||
分流主体/试验参与单元 | 指在试验中被随机分流的对象,也叫最小随机化单元。试验参与单元,按颗粒度区分,可以有用户级别、会话级别、页面级别。使用较多的是用户级别的单元,可以使用用户id标识分流主体,也可以使用设备id标识。 需要注意的是:
| 切换试验分流主体 | |
分流、随机分流 | 指流量的分配,将试验参与单元均匀地、随机地分到不同的试验里,再分配到不同的试验组里。神策A/B 测试使用的试验分流算法是根据Google给出了一套业界通用的分层分流试验框架而来,可参考《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》。 | 分流逻辑详细介绍 | |
流量分配:
| 流量分配指的是参与试验的用户如何被分入各个试验的各个组中的过程。整个试验的流量层级有以下几个:
| 试验层 | |
空白域 | 已有试验层之外划分的不进入指定试验层的用户,这批用户不参与指定的试验层里的任何试验,目的是该部分用户与参与了试验用户做对比。属于试验域的一种细分的应用。 | 空白域 | |
流量控制:
| 流量分配之所以要有不同的层级,目的是为了达到流量复用和流量的管理。
| 分流逻辑详细介绍 | |
受众用户 | 指参与试验的目标群体,分为针对全部用户和指定用户群体两大类。指定用户群体可以从已有人群中选择,或根据需要筛选用户。如指定了用户群体,将会从试验占用的试验层流量中,跟指定用户群取交集,成为最终参与试验的受众用户。 | 选取受众 | |
属性变更 | 参与的试验的用户,可能会因为用户属性的变化导致不符合指定用户群的条件,这时可以根据试验场景,选择跟着用户属性变更,使用户命中不同的分组。适用于策略需要精准、实时匹配用户的试验场景,比如试验用户随着地域(比如从北京到上海,不同地域产品策略不同)或会员等级(由VIP降级到普通用户)变化,需要展示不同的策略。 | ||
调试设备、白名单 | 指参与试验测试的设备,一般为测试手机的设备号。主要用于测试试验分组策略是否被正确下发。一旦设备被接入到某个试验分组,将固定命中当前的分组策略,以便我们观测该策略的实际效果是否满足试验要求。 | 调试设备管理 | |
变量 | 从试验角度来讲,变量指的是影响产品某项指标的可控因子,体现到代码层面,就是参数。一个变量通常由一个参数表达,但一个参数里也可能设置多个变量,比如一个json类型的参数,可以复合多个变量。常见的试验里,单变量多赋值表现为一个试验的多个试验组。多变量试验可以同时评估多个变量,比如字体颜色和字体大小。 | ||
参数(参数类型、参数名、参数值) | 在编程试验里,通过参数进行下发到对应的应用端,不同的参数对应不同的功能或者业务策略,一个试验里可以有多个参数。参数分为三部分: 参数类型:传递参数需要标识参数的类型,用于做判断,一般有integer、string、boolean、json。 参数名:标记参数的唯一性,一般以英文加数字表达。 参数值:参数的内容,用来区分不同的策略内容。 举例,一个名为buttoncolor的string类型的参数,在对照组,该参数值为red,表示按钮颜色的策略是红色;在试验组,该参数值为blue,表示按钮颜色的策略为蓝色。 | ||
示例代码 | 在完成参数的填写后,系统帮助生成的代码段。开发人员将代码嵌入到应用中实现对应的试验策略,根据需要查看不同语言下的示例。 | ||
试验指标 | 用于评估试验结果的指标数据,通常使用一组指标来衡量,包括检验指标,用于试验效果的评估;以及,业务指标,可以衡量产品的情况的指标。选择试验指标时,应注意,指标要能反应试验创建者的意图,也是可测量的、易得到的。 | 试验指标口径说明 | |
试验报告 | 指试验数据的可视化呈现,直观地总结和突出关键的数据,帮助试验创建者决策。报告里会包含试验的流量数据、指标数据等内容,以表格、趋势图、饼图等形式呈现。 | ||
试验标签 | 神策 A/B 测试系统默认会为每个试验生成试验标签,标签可在神策其他产品里使用,比如在神策分析里,为试验做长期的、深度的探索性数据分析。 | ||
编程试验 | 试验平台抽象出的一种试验类型模板,指通过代码编程实现的 A/B试验。广泛应用于客户端和服务端试验,覆盖产品功能、UI样式和后端算法优化等多种试验场景。 | 新建编程试验 | |
多链接试验 | 试验平台抽象出的一种试验类型模板,对比多个URL的试验。当试验用户访问一个URL时,跳转到不同试验版本的落地页。广泛应用于活动营销、广告推广等落地页效果对比的试验场景。 | 新建多链接试验 | |
可视化试验 | 试验平台抽象出的一种试验类型模板,通过可视化编辑的方式修改页面元素,无需代码编程即可快速进行文本、图片的替换和样式调整,生成不同版本的试验方案。具体包括文本的内容替换、字号、粗斜体、文本超链接地址以及超链接的打开方式(新窗口/当前窗口);图片的替换、宽高和边框样式等。 | 新建可视化试验 | |
时间片轮转试验 | 试验平台抽象出的一种试验类型模板,在时间维度上进行均匀切分,不同的时间片段映射了不同的试验策略,使得所有参与试验的用户在同一时间、同一空间下保持一致的策略。 | 新建时间片轮转试验 | |
多人群试验 | 试验平台抽象出的一种试验类型模板,可针对多个受众人群,设置多个分组,不同人群分别下发相同或不同的策略,验证对比群体差异,进而针对不同群体提供更好的产品和服务。 | 新建多人群试验 | |
父子试验 | 将某个试验作为父试验,用父试验的某一试验组作为另一个试验(子试验)的受众目标,观察用户命中的父子试验策略的叠加效果。 | 新建父子试验 | |
技术词汇 | SDK | 是“Software Development Kit”的缩写,指“软件开发工具包”,是辅助开发软件的相关文档、范例和工具的集合,实质上为一段代码集合。嵌入代码来实现指定的功能,或帮助解决指定的问题。A/B测试的SDK的主要作用就是进行分流和试验进组事件的上报,支持多种不同的开发语言。 | 技术对接指南 |
客户端 | 是面向客户开发的程序,一般安装在客户机上,为客户提供本地服务。与服务端建立连接后,客户端可以将服务器信息展示给客户。 | ||
服务端 | 是一种有针对性的服务程序,主要为客户端服务,可以向客户端提供资源、保存客户端数据。 | ||
分流接口 | 指返回用户分流结果的接口。分流接口会根据试验数据、用户属性等信息,在接收分流请求后,通过算法均匀、准确地计算出该用户的试验、试验组命中结果,并将结果返回请求方。 | ||
本地缓存 | 为提高读取效率、减少对数据库的直接请求,往往会将本地的物理内存划分出一部分空间,来缓存数据,而这部分数据就是本地缓存。A/B测试的本地缓存主要是在服务端和SDK,一般储存试验或用户分流结果。 | ||
兜底策略 | 为提高试验安全性,防止因分流失败造成客户损失,我们提供兜底策略的方案。一旦分流失败,用户不进入试验,且自动体验到兜底策略,一般推荐对照组策略为兜底策略。 | ||
试验进组事件 | 指标记用户进入试验的事件。用户在分流命中试验后,若触发到试验,则会体验到所命中的试验组策略,同时会上报“试验进组事件”,该事件上会携带用户进入试验的有效信息,为试验报告提供基础的统计依据。 | ||
ID-Mapping | 即用户关联,将同一用户的不同 ID 打通,以便贯通所有用户行为数据,方便系统地进行用户行为分析,支持用户标识之间的自由关联和解绑。 | ||
灰度发布 | 又名金丝雀发布,是指在黑与白之间,能够平滑过渡的一种发布方式。在其上可以进行A/B测试,即让一部分用户继续用产品特性A,一部分用户开始用产品特性B,如果用户对B没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到B上面来。灰度发布可以保证整体系统的稳定,在初始灰度的时候就可以发现、调整问题,以保证其影响度。 | 发布计划 | |
统计学类 | 试验样本 | 样本是观测或调查的一部分个体,总体是研究对象的全部。总体中抽取的所要考查的元素总称,样本中个体的多少叫样本容量。一般的,样本的内容是带着单位的,例如:调查300名会员的历史付费情况,样本是300名会员的历史付费金额数值,而样本容量则为300。选取样本的过程叫做抽样,根据不同的对象,在抽样方法也有所不同。 在 AB 测试中,通常是从总体用户中,随机抽取一部分对象作为观测样本,并基于样本的数据表现来推测总体对象的情况。这里的对象,可能是以用户作为单位,或者以设备作为单位,我们会将该对象的所有数据表现汇总到该对象上,进而计算出观测的样本个体的数值,如:该设备的历史付费金额、该用户的历史付费金额。 | |
随机抽样、抽样分布 | 随机抽样,是指在调研对象的总体中,完全按照机会均等的原则进行的抽样调查,总体中的每一个个体被抽中的概率是相等的。 在 AB 测试中,我们将使用哈希算法映射用户ID,将映射后的随机编号视为若干个用户分桶。哈希算法将会保证各个用户分桶内的用户数均等,再通过随机抽取用户桶号来实现随机抽样。这样被抽取的用户就可以用于代表整个用户群,实现各个试验组的特征相似,以保证除了试验变量外,其他因素均保持一致。 | ||
统计分组 | 统计分组就是根据统计研究的需要,按照一定的标志,将统计总体划分为若干个组成部分的一种统计方法。总体的这些组成部分,称为“组”,也就是大总体中的小总体。通过统计分组,使同一组内的各单位在分组标志的性质相同,不同组之间的性质相异。 在 AB 测试中,我们会将试验人群分成若干个组,这些组之间仅有试验策略一项差异,并使其他因素尽可能保持一致,这样即可科学的观测出,各统计分组的数据表现差异是由试验策略的差异带来的。 | ||
假设检验 | 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。 在 AB 测试中,通常默认假设试验组与对照组的表现是没有差异的(原假设),因此需要证据证明试验策略的不同会带来数据表现上的差异,即找数据推翻原假设,以证明试验组的策略是更好的或更坏的。 | ||
置信区间 | 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的数值范围。 在AB测试中,我们通常是从总体流量中获取一小部分人群作为观测样本,用这个观测样本的数据去估计总体数据的情况。比如,基于试验组A策略下的样本我们计算得到该组样本的转化率为5%。然后再通过统计分布的换算可以得到,若整个人群都采用试验组A的策略,则整个人群的转化率有一定概率(如95%)落在4%~6%之间,这里的4%~6%即为95%置信度下的置信区间,即对总体人群转化率的一个范围估计。 | ||
置信度 | 置信度也称为置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。 在AB测试中,我们通常会基于某个组的样本数据,去计算一个数值区间,用于估计该试验策略推广到总体人群之后的数据表现,如在95%置信度下,预估整个人群的转化率有95%概率落在4%~6%之间,则95%的值,便是我们认为可以接受的误差范围,这意味着我们仍有5%的可能性会犯错误,但我们接受这个犯错误的概率及其代价。 | ||
显著性 | 显著性,又称统计显著性(Statistical significance), 是指原假设确实成立的情况下拒绝原假设所要承担的风险水平,或者显著水平。 在 AB 测试中,通常默认假设试验组与对照组的表现是没有差异的(原假设),因此需要证据证明试验策略的不同会带来数据表现上的差异。通常我们会基于数据拿到一个证据,同时计算出该证据犯错误的概率。 即,如果原假设是成立的,当前的数据情况只有3%的可能性会发生,这并不合理,因此我们认为有97%的把握,原假设其实是不成立的。但仍有3%的可能性原假设确实成立,这3%便是我们所要承担的错误概率,即显著性。 | ||
统计功效 | 统计功效(statistical power)是指, 在假设检验中, 拒绝原假设后, 正确地接受替代假设的概率。 在 AB 测试中,通常默认假设试验组与对照组的表现是没有差异的(原假设),与之对应的替代假设便是试验组与对照组的确实存在差异。如果真实的情况是试验组与对照组的确实存在差异,照理来说我们应该接受替代假设,但仍可能因为两组的数据差异太小,使我们没有发现其中的差异,如果试验组的效果更好,那么最终的结果便是我们遗憾地错过了它。 统计功效,便是衡量我们能正确地发现试验组和对照组确有差异的概率。 | ||
最小样本量 | 在做假设检验的过程中,我们会面临2类错误:「原假设成立,但我们拒绝了它」「原假设不成立,但我们接受了它」,通常情况下,我们会事先规定一个可接受的概率值称之为错误概率α和错误概率β,α通常取5%,β通常取20%。 因为获取到的样本越多,我们的证据越充分,因此接下来,我么需要获取足够的样本,以降低犯错误的概率。最小样本量,便是我们达到预设可以接受的错误概率,所需要的最少的样本量。 | ||
方差估计 | 方差估计值,即样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;方差的参数估计,就是就是用样本的方差,去估计总体的方差参数。 |