喵学堂 · PurrLearn — 零基础学任何东西

❤️ 15/15

地基：A/B 测试是随机对照实验，随机化是唯一能立因果的钥匙

A/B 测试本质是在线随机对照实验（OCE / RCT）：把用户随机分到对照组（A，现状）和实验组（B，新功能），然后比较两组的结果指标（Kohavi/Tang/Xu）。

关键在「随机」二字。随机化让两组在所有已知与未知变量上期望相等，因此分组之后两组唯一的系统性差异，就是是否受了 treatment（新功能）。于是结果上的差异可以干净地归因于 treatment——这正是观察性数据做不到的。

一句话记住：相关 ≠ 因果，只有随机化实验能立起因果。 在所有确立因果的方法里，受控实验是最可靠的 gold standard。

🔆把随机分组想成发牌前彻底洗牌：洗到位之后，两手牌在『运气』上没有任何系统差别。这时你只对其中一手做一件事（换上新功能），最后两手输赢的差距，就只能赖在你做的那件事上——而不是『这手本来牌就好』。没洗牌（不随机），你永远分不清是功能起作用，还是这组用户本来就更活跃。

光有随机分组还不够，实验前还要先想清楚两件事：

OEC（Overall Evaluation Criterion，总体评估标准 / 北极星指标） ——把收入、参与度、留存等多个目标综合成的一个量化决策指标，用来判断实验该不该上线。好的 OEC 要：(1) 在实验周期内可快速测量、又是长期价值的好代理；(2) 与组织战略一致；(3) 不可被以非预期方式钻空子。提醒 Goodhart 定律：任何指标一旦成为被优化的目标，长期就会失去原本含义。

护栏指标（guardrail metrics） ——你不希望被恶化的组织级底线，比如页面加载延迟、崩溃 / 错误率、卸载率。一次实验可能算上百上千个指标，只有一小撮组成被优化的 OEC，另有一批护栏只许『不变坏』。哪怕 OEC 涨了，只要延迟或卸载率显著变差，也应否决——护栏是把『单指标优化』拉回『整体健康』的刹车。

📷 配图位：左边一个大漏斗把『收入 / 参与 / 留存』多个指标汇成一个标着 OEC 的出口；右边并排几道竖起来的护栏，标注『延迟 / 错误率 / 卸载率 —— 只许不变坏』，一条横线写『OEC 涨但撞护栏 = 否决』