❤️ 15/15

地基:A/B 测试是随机对照实验,随机化是唯一能立因果的钥匙

A/B 测试本质是在线随机对照实验(OCE / RCT):把用户随机分到对照组(A,现状)和实验组(B,新功能),然后比较两组的结果指标(Kohavi/Tang/Xu)。

关键在「随机」二字。随机化让两组在所有已知与未知变量上期望相等,因此分组之后两组唯一的系统性差异,就是是否受了 treatment(新功能)。于是结果上的差异可以干净地归因于 treatment——这正是观察性数据做不到的。

一句话记住:相关 ≠ 因果,只有随机化实验能立起因果。 在所有确立因果的方法里,受控实验是最可靠的 gold standard。

🔆把随机分组想成发牌前彻底洗牌:洗到位之后,两手牌在『运气』上没有任何系统差别。这时你只对其中一手做一件事(换上新功能),最后两手输赢的差距,就只能赖在你做的那件事上——而不是『这手本来牌就好』。没洗牌(不随机),你永远分不清是功能起作用,还是这组用户本来就更活跃。

光有随机分组还不够,实验前还要先想清楚两件事:

OEC(Overall Evaluation Criterion,总体评估标准 / 北极星指标) ——把收入、参与度、留存等多个目标综合成的一个量化决策指标,用来判断实验该不该上线。好的 OEC 要:(1) 在实验周期内可快速测量、又是长期价值的好代理;(2) 与组织战略一致;(3) 不可被以非预期方式钻空子。提醒 Goodhart 定律:任何指标一旦成为被优化的目标,长期就会失去原本含义。

护栏指标(guardrail metrics) ——你不希望被恶化的组织级底线,比如页面加载延迟、崩溃 / 错误率、卸载率。一次实验可能算上百上千个指标,只有一小撮组成被优化的 OEC,另有一批护栏只许『不变坏』。哪怕 OEC 涨了,只要延迟或卸载率显著变差,也应否决——护栏是把『单指标优化』拉回『整体健康』的刹车。

📷 配图位:左边一个大漏斗把『收入 / 参与 / 留存』多个指标汇成一个标着 OEC 的出口;右边并排几道竖起来的护栏,标注『延迟 / 错误率 / 卸载率 —— 只许不变坏』,一条横线写『OEC 涨但撞护栏 = 否决』