Q: 判断：为了尽快出结论，一边跑实验一边盯着 p 值，只要第一次看到 p<0.05 就立刻停下宣布显著——这种做法不影响假阳性率，是高效的好习惯。

错误。错误。经典 A/B 检验是为固定样本量设计的，α=0.05 的保证只在事先定好样本量、跑满才看一次时成立。持续监控、一过 0.05 就停（peeking/早停）相当于反复做多次检验，Type I 错误率会从 5% 飙到 20%–40%+。Johari/Pekelis/Walsh 用 Optimizely 真实数据模拟：每 500 人看一次约 26%，连续监控可达 40%+。正确做法是跑满预定样本量再下结论，或改用为连续监控设计的序贯方法（always-valid p 值）。（出处：Johari et al., Peeking at A/B Tests, KDD 2017）

Q: 关于『为什么要做 A/B 测试而不是靠拍脑袋』，下面哪条最符合微软规模化实验给出的硬证据？

在专门为提升某关键指标而精心设计、严格执行的实验里，只有约 1/3 真的显著改善了指标，约 1/3 无显著差异，约 1/3 反而显著变差——所以要用实验筛而非凭信念上线。Kohavi 等（KDD 2013，基于微软规模化实验）报告：在专门为提升某关键指标而精心设计、严格执行的实验中，只有约 1/3 真的显著改善了指标，约 1/3 没有显著差异，约 1/3 反而显著变差；在 Bing 这类高度优化的产品上成功率更低。这正是『数据胜过直觉』的硬证据——人对『什么有效』判断很差，大多数好点子经不起对照实验，不该让 HiPPO（最高薪者的意见）替代实验。（出处：Kohavi et al., Online Controlled Experiments at Large Scale, KDD 2013）

Question 1

A/B 测试被称为『能立因果』，最关键的原因是下面哪一条？

Accepted Answer

随机分组让两组在所有已知与未知变量上期望相等，于是分组后唯一的系统性差异就是是否受了 treatment，结果差异可归因于 treatment。A/B 测试是在线随机对照实验。随机化让对照组与实验组在所有已知与未知变量上期望相等，因此分组后两组唯一的系统性差异就是是否受了 treatment，于是结果差异可以干净地归因于 treatment——这正是观察性数据做不到的，也是『相关≠因果，只有随机化实验能立因果』的含义。样本量大并不能替代随机化，指标多更不等于因果。（出处：Kohavi, Tang, Xu《Trustworthy Online Controlled Experiments》2020）

Question 2

判断：实验得到 p=0.03，可以解读为『这个改动真有效的概率是 97%』『只有 3% 的概率纯属偶然』。

Accepted Answer

错误。错误。这是最高频的 p 值误读。美国统计学会（ASA 2016）原则二明确：p 值不衡量所研究假设为真的概率，也不衡量数据由随机噪声单独产生的概率。p 值衡量的是——在原假设（无差异）为真的前提下，观测到当前或更极端数据的概率，即 P(数据|H0)，绝不是 P(H0|数据)。把二者掉个个儿就是『条件概率倒置』。（出处：ASA Statement on p-Values, Wasserstein & Lazar 2016）

Question 3

你算出某改动效应的『95% 置信区间』是 [+1.2%, +3.8%]。下面哪种解读是正确的？

Accepted Answer

这是方法的长期覆盖率：若把同样流程在无数次重复抽样中执行，约 95% 次算出的区间会盖住真实参数；对手上这一个区间，真值要么在里面要么不在。95% 置信区间的正确（频率派）含义是方法的长期覆盖率：把同样流程在无数次重复抽样中执行，约 95% 次算出的区间会盖住真值。对你手上这一个具体区间，真值要么在里面、要么不在，没有『真值有 95% 概率落在本区间内』这回事——那是把频率派覆盖率误读成贝叶斯后验概率。Hoekstra 等（2014）发现连专家也普遍认同这条错误陈述。区间宽窄=精度、是否跨 0=方向是否确定。（出处：Hoekstra et al. 2014；ASA 2016 原则五）

Question 4

判断：为了尽快出结论，一边跑实验一边盯着 p 值，只要第一次看到 p<0.05 就立刻停下宣布显著——这种做法不影响假阳性率，是高效的好习惯。

Accepted Answer

错误。错误。经典 A/B 检验是为固定样本量设计的，α=0.05 的保证只在事先定好样本量、跑满才看一次时成立。持续监控、一过 0.05 就停（peeking/早停）相当于反复做多次检验，Type I 错误率会从 5% 飙到 20%–40%+。Johari/Pekelis/Walsh 用 Optimizely 真实数据模拟：每 500 人看一次约 26%，连续监控可达 40%+。正确做法是跑满预定样本量再下结论，或改用为连续监控设计的序贯方法（always-valid p 值）。（出处：Johari et al., Peeking at A/B Tests, KDD 2017）

Question 5

关于『为什么要做 A/B 测试而不是靠拍脑袋』，下面哪条最符合微软规模化实验给出的硬证据？

Accepted Answer

在专门为提升某关键指标而精心设计、严格执行的实验里，只有约 1/3 真的显著改善了指标，约 1/3 无显著差异，约 1/3 反而显著变差——所以要用实验筛而非凭信念上线。Kohavi 等（KDD 2013，基于微软规模化实验）报告：在专门为提升某关键指标而精心设计、严格执行的实验中，只有约 1/3 真的显著改善了指标，约 1/3 没有显著差异，约 1/3 反而显著变差；在 Bing 这类高度优化的产品上成功率更低。这正是『数据胜过直觉』的硬证据——人对『什么有效』判断很差，大多数好点子经不起对照实验，不该让 HiPPO（最高薪者的意见）替代实验。（出处：Kohavi et al., Online Controlled Experiments at Large Scale, KDD 2013）

A/B 测试入门：随机对照实验、OEC、p 值与置信区间误区、偷看早停、SRM、辛普森悖论 | 数据分析入门

地基：A/B 测试是随机对照实验，随机化是唯一能立因果的钥匙

读懂结果的两大坑：p 值不是『效果为真的概率』，置信区间也不是『含真值的概率』

实操陷阱与一条硬数据：别偷看早停、查 SRM、防新奇效应、警惕辛普森悖论

自测 · 学完检查一下