非平稳环境下的智能分流体系

1 MAB智能分流模型

在A/B测试的实际应用中会发现一些问题，第一，时间间隔的设定一直存在着争议，一方面“样本量足够大可以认为点击率服从正态分布”中的样本量无法给出准确的界定，另一方面运营者更加希望得到差异“显著”的数据支持，这也导致在实际运行A/B测试时会倾向于加大时间间隔、延长试验时间；第二，传统A/B测试得到的结论是基于过往的总体数据，得到的结论决定的是未来的流量分配设置，所以支撑决策的数据不具有实效性，对可能变化的潜在回报很不敏感，同时得到的结论很可能是局部最优的。MAB可以缩小观测时间间隔，同时平衡“探索和利用”问题，持续且敏锐的监测最优arm（即最优试验版本），快速找到具有最高预期利润的最优arm，然后继续使用最优arm进行大流量实验，从而在给定的时间范围内最大化预期的回报总和。与传统的A/B测试试验相比，基于MAB的试验具有提供更快结果和更好资源分配的潜力，作为一种自适应优化算法，MAB为实现A/B测试智能分流的目的提供了可能的途径。