招聘帖里常说的“A/B TesT”到底是个啥?

Mr.zhuMr.zhu2025-05-15 16:38:58来源:京东云 (www.jdcloud.com)阅读:26

作者:阿宅的产品笔记

本文在PMCAFF社区发布(www.pmcaff.com),转载请注明作者及出处。

大家在聊增长的时候必定会聊到实验,而聊实验的时候也必然聊到AB test。而且很多用人单位也把会不会用AB test作为考察增长产品或运营的关键指标之一。那么听起来这么高大上的AB test到底是个啥?

 

|| 什么是AB test?

A/B TesT,也叫AB测试,有时你也会看到 AB testing的说法。简单来说,它是指针对想调研的问题提供两种不同的备选解决方案(比如两个下单页面),然后让一部分用户使用方案A,另一部分用户使用方案B,最终通过数据观察对比确定最优方案。

其本质还是对照试验。这就像初中时学的鼠妇试验:把鼠妇等额分为两组,在其他条件相同的情况下对一侧遮光,另一侧不遮,再观察两组鼠妇在两种条件下的反应,从而得出光对鼠妇的影响。

 

|| AB test的特点

作为一种科学的实验方法,AB 测试具有以下特点:

简单来说,AB测试可以让你以对照试验的方法在小范围内对多个方案进行测试,并得出改版的最优解。

|| AB test的应用场景

作为增长的常用工具,它的应用场景非常广泛,小到一个文案,大到一套算法

1. 产品UI:红色还是紫色?会动的icon还是静态icon?

2. 文案内容:“免费注册”还是“注册送188元大礼包”?

3. 页面布局:登录框置于导航栏,还是悬浮于放在页面左侧?

4. 产品功能:要不要把看似冗余的资讯签下掉,还是将它留着?

5. 算法/算法:是根据用户的历史记录推荐相似内容,还是根据相似兴趣用户的行为推荐相关内容,又或是根据商品/内容本身的相关性给用户推荐?

以下是几个通过AB测试得到较好的产品改进的例子(引用自《增长黑客:创业公司的用户与收入增长秘》)

 

变为爱心图标后的“保存到心愿单”按钮

 

37Signals旗下产品Highrise的注册引导文案

 

《模拟城市》订购页面测试前的广告文案

|| AB test的实施步骤

与我们写论文时做的实证分析类似,AB 测试也有一套成熟的实施步骤:

1.现状分析:分析业务数据,确定当前最关键的改进点。

2.假设建立:根据现状分析作出优化改进的假设,提出优化建议。

3.设定目标:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。

4.界面设计:制作2(或多)个优化版本的设计原型。

5.技术实现:

网站、App(Android/IOS) 、微信小程序和服务器端需要添加各类A/B测试平台提供的SDK代码,然后制作各个优化版本。Web平台、Android和iOS APP需要添加各类A/B测试平台提供的SDK代码,然后通过编辑器制作各个优化版本。通过编辑器设置目标,如果编辑器不能实现,则需要手工编写代码。使用各类A/B测试平台分配流量。初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。

6.采集数据:通过各大平台自身的数据收集系统自动采集数据。

7.分析A/B测试结果:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。

上面说的可能有些复杂,核心便是假设检验和对照试验。接下来我们对上述步骤的一些要点和注意事项进行说明。

|| AB test的注意事项

1. 样本规模

在统计中样本量过小的话,样本特征相较总体特征便会存在一定偏差,实验结果便也不准确。样本量越大,样本特征才能越接近总体特征。所以,在进行实验设计时,为了保证实验结果的有效性,我们需要对样本规模进行约定。那么至少需要多大的样本规模才能在特定显著性下反应总体特征呢?这里涉及了一些统计学的概念。对于比率类指标可以按以下公式计算。

 

 

例如:“XX提交”按钮由红色变为橙色,统计的指标是点击UV转化率UV_rate,测试时间是20200801~20200814,则计算“XX提交”按钮的历史月均值mean(UV_rate)为下面数据的均值avg(UV_rate):

图片来源:知乎@livan,公众号:livandata

看起来确实挺头疼的,但你可以用一个小小的工具解决这个难题:

 

在这个工具里只要输入原始版本的转化率、优化版本的转化率和统计显著性,就可以计算出所需样本的数量大小了。是不是很好玩?

留言回复“样本”获取样本数量计算器

顺嘴提一句,在算出AB测试所需样本数量大小后,根据网站或App每天的访问数,即可计算出试验所需的时间。

试验所需的时间 = 所需样本数量大小 / 每天访问数

2. 测试结果分析

前面说过,AB测试的本质是假设检验,所以我们也需要进行显著性检验以拒绝或同意原假设。怎么进行假设检验就不扯了,太掉头发,即使大学概率论满绩但也吃不住折磨人的小妖精,还是给个小工具吧。

当然,学霸朋友们也可以看看这篇 AB-Test 双样本显著性计算,我等就蹭现成的了。

这个小工具可以根据A、B版本的访问数和转化数,计算出转化率和统计显著性数值,并给出可信度结论。

有了这俩,妈妈再也不担心我不会概率论啦。

依然,回复“测试结果”获取AB测试结果检验工具

3.辛普森悖论

这个悖论也是AB测中常常说到的话题,它是指某些条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。这个理论由英国统计学家辛普森提出。

 

用一个肾结石手术疗法的 AB 测试结果作为例子:

看上去无论是对于大型结石还是小型结石,A疗法都比B疗法的疗效好。但是总计而言,似乎B疗法比A疗法要好。

猜你想看

男科专家视角:硬度和长度哪个更重要?
持有D驾照,老年人青睐的电动三轮、四轮车能随便开吗?答案来了
switch商店怎么用支付宝付款 eshop支付宝购买游戏方法
眼部不适?冷敷VS热敷,哪种方法更有效?
机动车检验周期,你会算了么?
晚上翻来覆去睡不着?不妨试试4种食物,或能轻松解决哦!
裸睡:究竟有哪些好处?揭秘3大益处,男女都适宜!别再害羞了!
车上的定速巡航与自适应定速巡航,它们到底有什么区别呢?
东北第一“神兽”傻狍子,到底有多“傻”?傻到这份上都没灭绝
不交钱还能视同缴费,过渡养老金的存在,真的公平吗?
长期开启汽车的ECO模式,好还是不好?
视同缴费指数、实际缴费指数、平均缴费指数有什么作用?
正常缴纳社保,但是没有档案,可以办理退休吗?
什么是配电室?什么是配电房?什么是配电间?一文带你了解透彻!
用茶叶来进行皮肤美容的四种方法
48V锂电池的电动车能跑多久?
开自动挡平时要注意这几点,变速箱寿命才更长点,老司机都这样开
被子重,睡得香?这不是错觉,已经有研究证实了!
相亲见面3次定律,成与不成这3次接触足够了
冷泡、热泡、煮茶、蒸茶,老白茶有这么多喝法,哪种是夏天首选?

推荐站点