【测试】AB测试总结

CrazyPanda发表于：2024-06-22 17:47:24浏览：246次TAG：

文章目录

一、AB测试
1.1 什么是AB测试
1.2 AB测试的优缺点
二、假设检验
2.1 假设检验原理
2.2 假设检验步骤：
2.3 样本量的确定
2.4 样本质的控制
三、ABtest案例

一、AB测试

1.1 什么是AB测试

在互联网中AB测试通常指：为web或者app界面、流程设定两个或多个版本，在同一时间维度下，分别让类似的客户群体来访问，收集各群主的用户体验数据和业务数据，最后根据显著性检验分析评估出最优的版本。

1.2 AB测试的优缺点

AB测试的优点：通过实验对比，建立数据驱动，不断优化产品，还能降低新产品、新特性的发布风险。

AB测试的缺点：制作AB版本的开发、数据收集的工作量较大、以及后期维护成本增加，ROI低；同时AB测试还受场景限制，产品版本发布后，无法增加或更改AB测试场景。

为了解释显著性检验，这里先引入假设检验这个概念。

二、假设检验

2.1 假设检验原理

对总体特征做某种假设，然后通过样本研究统计推理，最终对此假设做出接受或者拒绝的判断，常见的假设检验有：Z检验、t检验、F检验、卡方检验。

2.2 假设检验步骤：

提出假设
确定适当的统计量
规定显著性水平
计算检验统计量
做出统计决策

需要注意：

提出假设：在假设检验中通常会提出两个命题，分别为H0和H1命题。H0是我们希望被推翻的命题，H1是我们希望被证实的命题。

确定适当的统计量：当样本数量大于30用Z检验；当样本数量小于30 ，近似服从正太分布且总体方差已知用Z检验；同样当样本量小于30，近似服从正太分布且总体方差未知用T检验；但如果样本量小于30，不服从近似正态分布，则不能用Z检验或者T检验

显著性水平：它是指H0命题为真，拒绝H0的概率。其实它代表小概率事件发生的概率。通常显著性水平用α表示，α可以取0.05或者0.01,它表示接受原假设正确性概率为95%或99%。

计算检验统计量：带公式计算出P值，P值是指在H0为真时，当前观测样本发生更加极端的概率。通俗的说如果p值很小，说明是小概率事件，在H0假设为真时尽然出现了小概率事件，当然要拒绝H0啦，反之则接受呗

当然这里我们可能经常犯统计学中两种错误：

第一类错误：当H0为真时，我们拒绝了H0，发生的概率为α

第二类错误：当H0为假时，我们却接受了H0，发生的概率为β

2.3 样本量的确定

理论上样本量越大越好，实际工作样本量越少越好。

这是因为样本量很少的情况下，实验结果可能被异常样本带偏，最终可能得到不准确的结果。但是使用样本量太大，相应的试错成本也会增大，那么如何确定合适的样本量就成了AB测试中的一个难题了？

这里给大家推荐计算计算样本量的网站：Sample Size Calculator

其实样本量和红框中这四个影响因子有关，这里做简要的说明：

Conversion Rate：可以把它理解为旧方案的的点击率，很容易理解，当旧方案中点击率越少，我们则需要更多的样本。

Minimum Detectable Effect：可以把它可以解释为“预想提升的转化率”，如果实验完毕后转化率提升的值高于或等于这个值，认为优化有用，反之优化程度可以忽略不计。

参数越大（比如10%），说明我们期望实验能够检测出10%的差别即可。检测这么大的差别当然比较容易（power变大），所以保持power不变的情况下，所需要的样本量会变小。
参数越小（比如1%），说明我们希望实验可以有能力检测出1%的细微差别。检测细微的差别当然更加困难（power变小），所以如果要保持power不变的话，需要的样本量会增加。

Statistical Significance：这参数为可以通过1-α得到

Statistical Power：这个参数可以通过1-β

对于某一具体的检验来说，当样本量n一定时，α越小，β越大。实际应用中通过增加样本量来减少β

2.4 样本质的控制

如果我们发现测试结果两个版本没有显著性区别，原因可能有三个，一：的确没有显著性区别；二：正如上面所提，实验分流没有达到所需要的样本量，从而能够以较大概率拒绝两类统计错误的发生，三：样本质量出现了问题，比如引入了异常的随机结果，举个例子：比如淘宝要对历史订单这个页面进行改版，设计了相应的AB测试，测试的目标是提升这个页面单个用户（UV）产生的GMV，也即是单日GMV/单日UV。但是某个用户在实验组里买了高价值的商品，它则可能带偏最终结果，为了控制质量的问题，我们可以采取AA测试。