AB 测试测验:这 12 个实验大坑你能躲开几个?
12 个真实产品团队现场——天天偷看看板的 PM、可疑的 50.2/49.8 分流、说「我就是知道」的 VP。你能叫出每个坑的名字吗?每题都有人话解析,不用注册。
0 / 12 题已答
第 1 题
新结账页打败旧版,p=0.03。产品经理兴奋宣布:「新版有 97% 的概率更好!」p=0.03 到底是什么意思?
第 2 题
看板显示转化提升的 95% 置信区间是 [+1%, +5%]。分析师说:「真实提升有 95% 的概率落在 1% 到 5% 之间。」她说得对吗?
第 3 题
增长 PM 每天早上刷实验看板,打算「p 一跌破 0.05 就停」。第三天真跌破了,他宣布胜利。哪里有问题?
第 4 题
你设计的是 50/50 分流。一周后实际是 50.2% 对 49.8%——看着没差多少,但卡方检验报 p<0.0005。偏偏指标数据还很漂亮。现在怎么办?
第 5 题
改版首页横幅头两天点击 +30%,团队想提前结束实验开香槟。风险是什么?
第 6 题
总体看,B 版转化率比 A 差;但按人群一拆,不管新用户还是老用户,B 都比 A 好。这怎么可能?
第 7 题
新推荐组件把点击率拉高 5%——但页面加载明显变慢,卸载率也涨了。上不上?
第 8 题
同事说:「开了深色模式的用户留存更高——这就证明深色模式提升留存了吧?还做什么 AB 测试?」
第 9 题
低流量页面上跑了两天的实验,p=0.20。同事在文档里写:「实验证明该功能没有效果。」正确的读法是?
第 10 题
VP 说:「我做了 20 年产品,这功能不用测,肯定赢。」大规模实验数据怎么说?
第 11 题
团队要给实验体系选北极星指标。下面哪个才是好的 OEC?
第 12 题
5000 万用户的实验里,人均收入涨 0.01%,p=0.0001。分析师说「高度显著,必须马上上」。坑在哪?
答完全部 12 题,看你的逻辑段位 👆
测验里的坑(速查表)
- p 值
- 「假设没效果时,数据这么极端的概率」——是 P(数据|H0),绝不是「有效的概率」。
- 置信区间
- 95% 说的是方法的长期命中率,不是「真值有 95% 概率在这一个区间里」。
- 偷看/早停
- 边跑边盯、见 p<0.05 就停,假阳性会涨到 20–40%+。
- SRM 样本比失衡
- 实际分流比显著偏离设计比(惯用 p<0.0005 判定),是数据质量的「发烧」——命中即作废,先查根因。
- 新奇效应
- 新功能靠好奇心虚高、随时间衰减;跑满整周、看趋势再下结论。
- 辛普森悖论
- 合并数据的趋势在每个子组里都反转,根因是构成不均的混杂变量。
- OEC
- 唯一的决策指标——短期可测、因果预示长期价值、难被钻空子。
- 护栏指标
- 延迟/报错/卸载这些「不许变坏」的底线,破一条就一票否决。
- 统计功效
- 真有效应时能测出来的概率,惯例 ≥0.80;实验前先算样本量。
- 随机化
- 让两组除了功能本身以外期望全等——立因果的唯一钥匙。
- HiPPO
- 最高薪者的意见——实验存在的意义就是替它把关;好点子只有约 1/3 真的赢。
什么是 AB 测试?
AB 测试的本质是在线随机对照实验:把用户随机分到现状组(A)和改动组(B)。随机化让两组在其它一切变量上期望相等,于是结果差异就能归因于改动本身——这是普通数据分析永远给不了的「干净因果」,也是受控实验被称为因果金标准的原因。
这套题里的坑一个都不是编的——全部来自过去二十年的大规模实验研究,大多收录在 Ron Kohavi、Diane Tang、Ya Xu 的《Trustworthy Online Controlled Experiments》(2020)和一串 KDD 论文里:偷看早停(Johari 等,2017)、样本比失衡 SRM(Fabijan 等,2019)、新奇效应(Kohavi 等,2012),以及那个扎心的发现——精心设计的改动只有约三分之一真的改善关键指标(Kohavi 等,2013)。
这些统计概念连专业人士都会栽:美国统计学会 2016 年为 p 值误读专门发了正式声明;Hoekstra 等(2014)发现连在职研究者都普遍认同关于置信区间的错误说法。要是你也错了那两题,放心,同伴阵容相当豪华。
建议先裸测一遍,再读每题一句话解析和速查表。如果哪个场景让你后背发凉——提前停掉的实验、没人解释的分流失衡——那正是这套题起作用了。
常见问题
AB 测试里 p 值多少算好?
行业惯例取 0.05 做显著性门槛。但 p<0.05 不代表效果为真或重要——它只说明「假设没差别时,这么极端的数据很罕见」。还要看效应量和置信区间,并且跑满预定样本量后再看 p。
AB 测试要跑多久?
至少跑满一到两个整周(含完整的工作日+周末周期)。新奇效应消退、效应稳定往往就要一两周;见 p<0.05 就停会让假阳性暴涨。
什么是 SRM(样本比失衡)?
实际分流比偏离设计比、且偏得超出偶然范围(业界惯用卡方检验 p<0.0005 判定)。它是数据质量出问题的信号——查清根因之前,这次实验的结论都不可信。
为什么 AB 测试能证明因果,普通数据分析不能?
随机分组让两组在所有已知、未知变量上期望相等,功能本身成了唯一的系统性差异,结果差异才能归因于它。观察数据永远甩不掉混杂因素。
这个 AB 测试测验免费吗?
免费——12 题,即时出结果和解析,无需注册。