AB 测试测验：这 12 个实验大坑你能躲开几个？

Q: AB 测试里 p 值多少算好？

行业惯例取 0.05 做显著性门槛。但 p<0.05 不代表效果为真或重要——它只说明「假设没差别时，这么极端的数据很罕见」。还要看效应量和置信区间，并且跑满预定样本量后再看 p。

Q: AB 测试要跑多久？

至少跑满一到两个整周（含完整的工作日+周末周期）。新奇效应消退、效应稳定往往就要一两周；见 p<0.05 就停会让假阳性暴涨。

Q: 什么是 SRM（样本比失衡）？

实际分流比偏离设计比、且偏得超出偶然范围（业界惯用卡方检验 p<0.0005 判定）。它是数据质量出问题的信号——查清根因之前，这次实验的结论都不可信。

Q: 为什么 AB 测试能证明因果，普通数据分析不能？

随机分组让两组在所有已知、未知变量上期望相等，功能本身成了唯一的系统性差异，结果差异才能归因于它。观察数据永远甩不掉混杂因素。

Q: 这个 AB 测试测验免费吗？

免费——12 题，即时出结果和解析，无需注册。

12 个真实产品团队现场——天天偷看看板的 PM、可疑的 50.2/49.8 分流、说「我就是知道」的 VP。你能叫出每个坑的名字吗？每题都有人话解析，不用注册。

0 / 12 题已答

第 1 题

新结账页打败旧版，p=0.03。产品经理兴奋宣布：「新版有 97% 的概率更好！」p=0.03 到底是什么意思？

第 2 题

看板显示转化提升的 95% 置信区间是 [+1%, +5%]。分析师说：「真实提升有 95% 的概率落在 1% 到 5% 之间。」她说得对吗？

第 3 题

增长 PM 每天早上刷实验看板，打算「p 一跌破 0.05 就停」。第三天真跌破了，他宣布胜利。哪里有问题？

第 4 题

你设计的是 50/50 分流。一周后实际是 50.2% 对 49.8%——看着没差多少，但卡方检验报 p<0.0005。偏偏指标数据还很漂亮。现在怎么办？

第 5 题

改版首页横幅头两天点击 +30%，团队想提前结束实验开香槟。风险是什么？

第 6 题

总体看，B 版转化率比 A 差；但按人群一拆，不管新用户还是老用户，B 都比 A 好。这怎么可能？

第 7 题

新推荐组件把点击率拉高 5%——但页面加载明显变慢，卸载率也涨了。上不上？

第 8 题

同事说：「开了深色模式的用户留存更高——这就证明深色模式提升留存了吧？还做什么 AB 测试？」

第 9 题

低流量页面上跑了两天的实验，p=0.20。同事在文档里写：「实验证明该功能没有效果。」正确的读法是？

第 10 题

VP 说：「我做了 20 年产品，这功能不用测，肯定赢。」大规模实验数据怎么说？

第 11 题

团队要给实验体系选北极星指标。下面哪个才是好的 OEC？

第 12 题

5000 万用户的实验里，人均收入涨 0.01%，p=0.0001。分析师说「高度显著，必须马上上」。坑在哪？

答完全部 12 题，看你的逻辑段位 👆

测验里的坑（速查表）

p 值: 「假设没效果时，数据这么极端的概率」——是 P(数据|H0)，绝不是「有效的概率」。
置信区间: 95% 说的是方法的长期命中率，不是「真值有 95% 概率在这一个区间里」。
偷看/早停: 边跑边盯、见 p<0.05 就停，假阳性会涨到 20–40%+。
SRM 样本比失衡: 实际分流比显著偏离设计比（惯用 p<0.0005 判定），是数据质量的「发烧」——命中即作废，先查根因。
新奇效应: 新功能靠好奇心虚高、随时间衰减；跑满整周、看趋势再下结论。
辛普森悖论: 合并数据的趋势在每个子组里都反转，根因是构成不均的混杂变量。
OEC: 唯一的决策指标——短期可测、因果预示长期价值、难被钻空子。
护栏指标: 延迟/报错/卸载这些「不许变坏」的底线，破一条就一票否决。
统计功效: 真有效应时能测出来的概率，惯例 ≥0.80；实验前先算样本量。
随机化: 让两组除了功能本身以外期望全等——立因果的唯一钥匙。
HiPPO: 最高薪者的意见——实验存在的意义就是替它把关；好点子只有约 1/3 真的赢。

什么是 AB 测试？

AB 测试的本质是在线随机对照实验：把用户随机分到现状组（A）和改动组（B）。随机化让两组在其它一切变量上期望相等，于是结果差异就能归因于改动本身——这是普通数据分析永远给不了的「干净因果」，也是受控实验被称为因果金标准的原因。

这套题里的坑一个都不是编的——全部来自过去二十年的大规模实验研究，大多收录在 Ron Kohavi、Diane Tang、Ya Xu 的《Trustworthy Online Controlled Experiments》（2020）和一串 KDD 论文里：偷看早停（Johari 等，2017）、样本比失衡 SRM（Fabijan 等，2019）、新奇效应（Kohavi 等，2012），以及那个扎心的发现——精心设计的改动只有约三分之一真的改善关键指标（Kohavi 等，2013）。

这些统计概念连专业人士都会栽：美国统计学会 2016 年为 p 值误读专门发了正式声明；Hoekstra 等（2014）发现连在职研究者都普遍认同关于置信区间的错误说法。要是你也错了那两题，放心，同伴阵容相当豪华。

建议先裸测一遍，再读每题一句话解析和速查表。如果哪个场景让你后背发凉——提前停掉的实验、没人解释的分流失衡——那正是这套题起作用了。

常见问题

AB 测试里 p 值多少算好？

行业惯例取 0.05 做显著性门槛。但 p<0.05 不代表效果为真或重要——它只说明「假设没差别时，这么极端的数据很罕见」。还要看效应量和置信区间，并且跑满预定样本量后再看 p。

AB 测试要跑多久？

至少跑满一到两个整周（含完整的工作日+周末周期）。新奇效应消退、效应稳定往往就要一两周；见 p<0.05 就停会让假阳性暴涨。

什么是 SRM（样本比失衡）？

实际分流比偏离设计比、且偏得超出偶然范围（业界惯用卡方检验 p<0.0005 判定）。它是数据质量出问题的信号——查清根因之前，这次实验的结论都不可信。

为什么 AB 测试能证明因果，普通数据分析不能？

随机分组让两组在所有已知、未知变量上期望相等，功能本身成了唯一的系统性差异，结果差异才能归因于它。观察数据永远甩不掉混杂因素。

这个 AB 测试测验免费吗？

免费——12 题，即时出结果和解析，无需注册。