招聘帖里常说的“A/B TesT”到底是个啥?

Mr.zhuMr.zhu2025-05-15 16:38:58来源:比博斯特 (www.bebest-sh.com)阅读:12

作者:阿宅的产品笔记

本文在PMCAFF社区发布(www.pmcaff.com),转载请注明作者及出处。

大家在聊增长的时候必定会聊到实验,而聊实验的时候也必然聊到AB test。而且很多用人单位也把会不会用AB test作为考察增长产品或运营的关键指标之一。那么听起来这么高大上的AB test到底是个啥?

 

|| 什么是AB test?

A/B TesT,也叫AB测试,有时你也会看到 AB testing的说法。简单来说,它是指针对想调研的问题提供两种不同的备选解决方案(比如两个下单页面),然后让一部分用户使用方案A,另一部分用户使用方案B,最终通过数据观察对比确定最优方案。

其本质还是对照试验。这就像初中时学的鼠妇试验:把鼠妇等额分为两组,在其他条件相同的情况下对一侧遮光,另一侧不遮,再观察两组鼠妇在两种条件下的反应,从而得出光对鼠妇的影响。

 

|| AB test的特点

作为一种科学的实验方法,AB 测试具有以下特点:

简单来说,AB测试可以让你以对照试验的方法在小范围内对多个方案进行测试,并得出改版的最优解。

|| AB test的应用场景

作为增长的常用工具,它的应用场景非常广泛,小到一个文案,大到一套算法

1. 产品UI:红色还是紫色?会动的icon还是静态icon?

2. 文案内容:“免费注册”还是“注册送188元大礼包”?

3. 页面布局:登录框置于导航栏,还是悬浮于放在页面左侧?

4. 产品功能:要不要把看似冗余的资讯签下掉,还是将它留着?

5. 算法/算法:是根据用户的历史记录推荐相似内容,还是根据相似兴趣用户的行为推荐相关内容,又或是根据商品/内容本身的相关性给用户推荐?

以下是几个通过AB测试得到较好的产品改进的例子(引用自《增长黑客:创业公司的用户与收入增长秘》)

 

变为爱心图标后的“保存到心愿单”按钮

 

37Signals旗下产品Highrise的注册引导文案

 

《模拟城市》订购页面测试前的广告文案

|| AB test的实施步骤

与我们写论文时做的实证分析类似,AB 测试也有一套成熟的实施步骤:

1.现状分析:分析业务数据,确定当前最关键的改进点。

2.假设建立:根据现状分析作出优化改进的假设,提出优化建议。

3.设定目标:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。

4.界面设计:制作2(或多)个优化版本的设计原型。

5.技术实现:

网站、App(Android/IOS) 、微信小程序和服务器端需要添加各类A/B测试平台提供的SDK代码,然后制作各个优化版本。Web平台、Android和iOS APP需要添加各类A/B测试平台提供的SDK代码,然后通过编辑器制作各个优化版本。通过编辑器设置目标,如果编辑器不能实现,则需要手工编写代码。使用各类A/B测试平台分配流量。初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。

6.采集数据:通过各大平台自身的数据收集系统自动采集数据。

7.分析A/B测试结果:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。

上面说的可能有些复杂,核心便是假设检验和对照试验。接下来我们对上述步骤的一些要点和注意事项进行说明。

|| AB test的注意事项

1. 样本规模

在统计中样本量过小的话,样本特征相较总体特征便会存在一定偏差,实验结果便也不准确。样本量越大,样本特征才能越接近总体特征。所以,在进行实验设计时,为了保证实验结果的有效性,我们需要对样本规模进行约定。那么至少需要多大的样本规模才能在特定显著性下反应总体特征呢?这里涉及了一些统计学的概念。对于比率类指标可以按以下公式计算。

 

 

例如:“XX提交”按钮由红色变为橙色,统计的指标是点击UV转化率UV_rate,测试时间是20200801~20200814,则计算“XX提交”按钮的历史月均值mean(UV_rate)为下面数据的均值avg(UV_rate):

图片来源:知乎@livan,公众号:livandata

看起来确实挺头疼的,但你可以用一个小小的工具解决这个难题:

 

在这个工具里只要输入原始版本的转化率、优化版本的转化率和统计显著性,就可以计算出所需样本的数量大小了。是不是很好玩?

留言回复“样本”获取样本数量计算器

顺嘴提一句,在算出AB测试所需样本数量大小后,根据网站或App每天的访问数,即可计算出试验所需的时间。

试验所需的时间 = 所需样本数量大小 / 每天访问数

2. 测试结果分析

前面说过,AB测试的本质是假设检验,所以我们也需要进行显著性检验以拒绝或同意原假设。怎么进行假设检验就不扯了,太掉头发,即使大学概率论满绩但也吃不住折磨人的小妖精,还是给个小工具吧。

当然,学霸朋友们也可以看看这篇 AB-Test 双样本显著性计算,我等就蹭现成的了。

这个小工具可以根据A、B版本的访问数和转化数,计算出转化率和统计显著性数值,并给出可信度结论。

有了这俩,妈妈再也不担心我不会概率论啦。

依然,回复“测试结果”获取AB测试结果检验工具

3.辛普森悖论

这个悖论也是AB测中常常说到的话题,它是指某些条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。这个理论由英国统计学家辛普森提出。

 

用一个肾结石手术疗法的 AB 测试结果作为例子:

看上去无论是对于大型结石还是小型结石,A疗法都比B疗法的疗效好。但是总计而言,似乎B疗法比A疗法要好。

猜你想看

摩托车护具太难挑?从这三点出发,入门足够
带T的车开之前是否需要热车?一篇文章告诉你!
起底游戏账号灰色交易链:账号归属存争议,“恶意找回”者多在18到25岁
带屏幕冰箱到底是不是“智商税”?这回明白了
上海“不容错过”的5种美食,吃了饱你口福
超市3款“廉价”酒,全是不加1滴香精的纯酿,懂行的成箱往家搬
6999元都能频频售罄,这只华为表王,有哪些神级操作?
市面上木门假货多?良心师傅教你从这几点挑选木门,美观又实惠
你见过劳力士真正的潜水腕表吗?能抵御11000米水深!
2024豆瓣年度电影精选榜单
广式咸肉粽里的岭南滋味
专家告诉你人脸识别全过程
秋季女性喝什么茶最好 这4款茶饮最适合
互联网从业者薪资稳居榜首,“复合型人才”将成为发展趋势
跑者约跑要有底线,跑步不是随心所欲
灵活就业人员养老保险中断以后,还可以补缴吗?
《完蛋!我被美女包围了》中的角色郑梓妍及其扮演者
常见的不同真空采血管有什么作用
中国十大名楼
公务员在办理退休时,是以职务还是以职级来计算退休待遇?

推荐站点