《AB实验 科学归因与增长的利器》
2022-07-19 23:28:40 0 举报
AI智能生成
AB实验
作者其他创作
大纲/内容
3.实验指标
产品指标体系
设计指标
OKR
OSM
设计和开发技巧
评估指标
信息增益
因果关系
长期有效性
进化指标
案例1:信息流产品指标迭代
- 产品早期,图文为主——》内容点击量
- 短视频引入,自动播放,反复播放等内容消费形态变化——》播放次数+点击次数
- 小视频引入(小于30s),内容短播放次数偏高——》人均消费时长
- 仅看人均,会出现低时长用户的流失会反向提升人均消费时长,所以需要考虑量级——》消费人数
案例2:滴滴网约车
设计指标的技巧
采用对立思维,考量负向指标
考虑指标质量,过滤无效数值
指标案例
内容类产品指标体系
实验评估指标体系
优质的评估指标需满足
平衡指向性和灵敏性
站在业务视角
考虑数据加工,应用和工程特性
建立OEC总体评估指标
依靠实验预料库
降级实验,看OEC指标能否检测到下降
指标加权法
机器学习模型
减少关键指标数量
4.实验实践
实验假设
构建全局数据链路
寻找瓶颈环节
横向对比是指和业内相同形态产品进行对比,如果竞品的指标远高于自己产品的指标,说明还有一定上升空间
纵向对比是指和历史水平进行对比,如果发现产品当前阶段某个指标有明显下滑,那么一方面需要数据启动归因,进行问题定位和分析,另一方面需要找到应对措施
通过维度下钻,找到表现好的细分用户群体和领域,对表现差的用户群体进行分析,找到提升的策略
问题归因和需求还原
这个过程的核心是将数据现象转化为对于用户行为、心理模型的理解。将数据还原到场景中,还原用户的需求,按照哪些用户需求没有被满足、如何做可以更好地满足用户需求这样的基本思路进行想法的探讨和构建
实验设计
样本选择
随机化单元选择:一般是用户层级
实验目标群体的选择,即选择实验的目标参与用户,这涉及实验的触发时机以及后续的实验分析
抽样方式
静态随机抽样是针对符合条件的用户进行无差别的随机抽样,是指在抽样前,抽样的用户是根据既定的用户属性确定好的,在实验开始前,抽样用户的范围已经选好,比如在实验开始前就清楚,只有女性用户会被选到实验中
动态筛选抽样是相对于静态随机抽样而言的,是指用户进入某项产品功能时,才触发实验。这种动态筛选抽样都是根据用户的行为,实时触发进入进入实验的。在实验开始前,我们并不知道哪些用户能进入,只有实验开始后才能知道哪些用户进入实验
两种方式差异:这两种抽样方式最大的差异体现在后续实验效果的计算上,静态随机抽样,实验效果可直接换算成全量。通过动态筛选选择样本,无法把效果直接换算为全量,这是因为不具备按比例缩放的基础,进入实验的用户与剩下的用户不是同质的,
指标设计
结果指标
过程指标
保护指标
流量计算
最小实验单位量:四要素
流量不够的对策
延迟实验周期
前提是样本和指标计算方式为累计制
但次日留存率等指标,累计制无法计算,只能按天计算
采用方差更小的指标
比如使用“是否购买”的二元指标替代“购买多少”
放宽检测精度
比如将最小检出量从0.5%提高到1%
过滤实验用户增加触发条件
比如实验只对进入特定二级页面的用户生效,实验在产品一级入口处调用并且上报命中用户,这样会有很多没有参与实验的用户进入统计,稀释实验效果。增加实验的触发条件,在二级页面调用实验,上报命中,这样就避免了效果被稀释,可以降低对样本量的要求
实验周期估计:实验持续时间=最小样本量/单位时间的有效用户流入量
每天进入的用户独立:不合理
实验期间同一个用户去重:累计
实验运行
实验上线
上线前:体验,埋点等点检
上线后:检查实验是否正常运行:白名单&抓包;实验指标监控
实验停止
预设的最小检出量过高,实验无法达到。需要停止并重开实验
指标波动较大:节假日,突发事件等影响
实验放量
实验效果正向,放量需要注意:多阶段不同放量百分比的实验,多次实验结果不能直接汇总,注意辛普森悖论
实验效果评估
几个问题
对统计结果理解是否正确:是自然波动还是有效果?实验的检出精度是否足够?样本量是否足够
实验过程是否正确:是否有AA实验,是否有SRM问题
实验结果外推是否正确:群体外推&时间外推
明确实验影响范围:仅对有影响的人做分析,避免实验效果被稀释
确保人群具有可比性:比如弹窗策略,实验组有弹窗,对照组无弹窗。1.不能用实验组有弹窗人群对比整体对照组,2.也不能实验组内部有/无弹窗人群对比。以上对比都是有偏差的。只能整体对比整体。
评估先整体后局部:先总后分中的“总”是指实验参与人群在整体产品上的实验效果;“分”是指实验参与人群在局部功能上的实验效果
通过细分维度发现问题
案例:信息流深夜用户——强化分发策略的时间特征
正确解读实验统计学含义
关于P值,统计功效,置信区间
实验决策
是否需要在不同指标间权衡:指标有升有降,如何决策,比如提升adload会影响内容曝光
在实验决策时,还需要考虑改变实验策略的成本,新功能开发成本、维护成本等。
决策错误的负面影响是什么
实验沉淀
发现策略通用性
从失败中找机会点
帮助理解指标:指标敏感性,指标之间的关联
0.概论:AB实验需要关注哪些问题
1.实验参与对象
实验参与对象是否被合理随机化
实验参与对象是否相互独立
实验参与对象的数量是否足够
2.实验随机分流
最小分流单元采用什么颗粒度是最佳的选择
在分流的时候,如何在不增加实验评估复杂度的情况下实现流量复用
对于同一个实验中的各组实验对象,它们是同质的吗
3.实验指标
如何选择合适的实验评估指标
4.实验评估
对统计结果理解是否正确:是自然波动还是有效果?实验的检出精度是否足够?样本量是否足够
实验过程是否正确:是否有AA实验,是否有SRM问题
实验结果外推是否正确:群体外推&时间外推
1.实验参与单元
定义:指实验随机分流的对象,也叫最小化实验单位,选择实验单元和评估指标需要保持一致。
常见的实验单元
元素级别:一篇文章,视频等随机分流并标记实验ID
页面级别:产品页面被视为实验参与单元,进行实验的页面每被打开一次,就会被随机函数分配到不同的实验组。相同的用户不同时间打开多次实验页面被分别计算实验ID
会话级别:会话的概念在Web端和App端都存在,基本含义是用户在网站的一次访问时查看的一组页面或是启动一次App后在App内的行为,通常从启动App到退出App定义为一个会话,需要考虑前后台切换、时间限制、刷新机制等问题。
用户级别:用户设备、账号等
定向实验对一部分用户随机分流:仅对满足某些条件的用户实验
选择实验单位的考虑因素
实验所需的流量,实验精度
实验单位越细,所对应的指标方差越小,同时越能精准定位实验影响范围。
用户体验的流畅性
如果实验特征的粒度跨越实验参与单元的粒度起了作用,则不能使用该粒度的实验参与单元进行分流
最小实验单位量
统计实验最小样本量所需参数:显著水平,统计功效,基线水平,最小检出水平
实验参与单元与实验指标
通常实验评估指标选择与实验参与单位一致的粒度:比如用户级别—人均点击;页面级别—页面停留时长
粗粒度的实验单元可以向下兼容评估指标:比如用户级别下使用元素的ctr,消费时长
向下兼容的处理方式:bootstrap、delta
细粒度的随机实验无法向上兼容:可能存在一个用户同时在实验组和对照组
因此如果实验评估指标是用户级别的,就无法选择更细的粒度
个体处理稳定性假设(独立性)
是指在AB实验分析中,假设实验中每个实验参与单元的行为是相互独立的。对于以用户为实验参与单元的情况来说,独立的意思就是一个用户的行为不受其他用户影响。我们将违反SUTVA的情况称为干扰了个体处理稳定性假设,也称为实验参与单元之间的溢出或泄漏。
产生原因:
直接干扰:比如社交类产品的实验,好友之间被分到实验组和对照组,实验被分享
间接干扰:通过某些潜在变量或共享资源,两个实验单元可以间接连接
处理方法:
共享资源隔离:比如广告预算隔离
地理位置隔离
网络族群隔离
边缘度分析
生态经验法
双边随机法:用户角色之间存在明显的生产者、消费者区别。
2.实验随机分流
用户如何被随机分流的:通常使用散列函数将用户随机地分配给不同的桶(bucket)
每个桶中的用户数量应该大致相同。如果按关键维度(如地域、平台或性别)进行细分,则各个桶的切片数据也将大致相同
关键指标(目标、保护、质量)应该具有大致相同的值(在正常可变性范围内)
解决流量复用方法:正交分层
把用户分配到桶时,会添加层id,也称为盐值。层与层之间的正交性就是靠散列函数加层id的方式来保证,各层之间的影响通过正交随机打散的方式被抵消。
如何分层(分多少层,怎么定义层)
每个实验都单独作为一层,这也被称为全析因实验设计
缺点:相似实验之间可能存在冲突,比如实验A-蓝色字体,实验B-蓝色背景,用户命中两个导致界面全蓝,体验较差
有限层的划分:系统参数划分为多个层,
不同层运行不同类的实验,组合在一起可能会产生较差用户体验的实验必须在同一层中,并防止设计为向同一用户运行
不同层运行不同类的实验,组合在一起可能会产生较差用户体验的实验必须在同一层中,并防止设计为向同一用户运行
同类业务互斥,进入同一层
不同业务拆分到不同层
联合业务:贯穿域
随机性保障:散列算法
散列算法考虑因素:计算性能,均匀性,相关性
均匀性:均匀性是指在同层之中分为不同实验组的时候,每个组分到的参与用户的数量尽量一致。我们可以用组间差异(Hash_diff)来表示不同实验组之间参与用户数量的差异。Hash_diff越小,均匀性越好
相关性是指在不同层的组之间的混合尽量均匀,可以用层间差异(Layer_diff)来表示,Layer_diff越小,相关性越低。
常见的散列算法有MD、SHA、JDB、Murmur等。其中最为常用的是MD和Murmur,Murmur的运算性能更好,抗碰撞性更强,表现出的均匀性、相关性较好
随机性保障:SRM检验
定义:SRM问题主要是指实验组和对照组之间的实验参与单元数量(比如用户数、页面数、会话数等)的比率不匹配。SRM问题中用户比率采用的数量是暴露给实验的全部用户,而不是实验后续漏斗路径中的用户,漏斗用户量的差异可能是实验效果导致的,这不属于SRM问题
SRM原因
原因1:部署阶段
残留效应:逐步迭代时,前一次实验分组影响了相同分组的后续实验。在业务方理解为在上一个迭代中被分到实验组的用户,在下一个迭代中继续保留在实验组,但该行为会导致残留效应。举例:当第一次实验严重负面影响用户体验后,迭代优化后再向同样人群推出实验,用户可能因先前体验较差,不使用功能/产品,导致未进入实验组。
触发前状态偏差:
动态定向目标:定向目标是指实验运行在特定的用户集上,基于用户的属性和活动特征为他们提供个性化的产品体验。用于确定目标的属性可以是静态的(如性别);也可以是动态的。动态属性容易变动,比如针对流失用户的实验,实验策略尝试用推送、小红点等拉活手段重新召回他们。当一些用户通过这些活动被召回时,他们不再被归类为沉睡用户,从而导致下一次迭代产生偏差
原因2:执行阶段
实验部署后进入执行阶段,执行阶段需要下发策略,保持下发人群的可对比性:
1)下发策略时需要对齐时机;
2)需要注意避免引入“不必要的过滤条件”
1)下发策略时需要对齐时机;
2)需要注意避免引入“不必要的过滤条件”
原因3:数据处理和分析阶段
机器人等异常值处理导致SRM
样本偏差
SRM计算
采用z分数
SRM问题定位
验证随机化点或触发点上游没有差异
验证变量分配是否正确
是否为相同的实验时间区间
查看细分维度的采样比例
随机性保障:AA实验
AA实验的作用
控制第一类错误:实验指标的计算是否保持了与实验参与单元保持粒度一致,比如点击率的计算(按页面计算,按用户计算)
确保用户同质:实验流量是否同比例。大的分组下,某些指标正态化收敛速度快,导致指标不均匀
实验数据和日志系统/BI系统对齐
估计统计方差,了解自然波动区间
AA实验运行
何时运行AA实验:AB系统上线后,测试系统有效性;具体某个实验前运行AA实验,确认分流均匀
为节约时间,一般可以采用回溯法,计算前置数据
实验灵敏度
定义:在进行AB实验时,我们希望检测新特征在用户身上的作用,效果有大有小,能有效检测出多大程度的变化,取决于AB实验系统的检测能力,检测能力的大小就被称为实验灵敏度。
减少方差
选择方差较小的评估指标:比如用购买率(二分指标)替代购买金额
对数化,二元化、截断法
选择颗粒度更细的实验参与单元
使用触发分析,将实验效果聚焦在受影响的对象上
通过用户分层,控制变量
设计配对实验
触发分析
定义:触发技术为实验者提供了一种提高实验灵敏度的方法,即过滤掉不会受到实验影响的用户所产生的噪声
触发方式
特征触发:依据事前制定的属性规则触发用户,比如地域,活跃度
行为触发:用户需要触发某个动作,或者到达某一页面,改动曝光给用户
扩大触发:特点:实验组的策略在线上已有,是限定了范围人群。实验的目的就是扩大这个范围。比如免运费策略之前是100元起,现在扩大到50元起。
更改范围触发:特点:实验策略线上已有,限定了范围人群。实验的目的是更改部分的范围人群,比如免运费策略之前是100元起,但现在改为50元且需要7天内无退货(对100元以上也是如此)。这导致原100元免运费群体出现不免费情况。
虚拟事实触发:比如对线上用户聚类模型迭代。实验要分析的人群应该是新模型与旧模型分类有差异的用户。为了知道某个用户在新旧模型中属于哪个用户分类,需要对照组同步运用新模型,实验组同步运行旧模型,用于记录用户在两个模型的分类结果。
触发实验的分析
注意事项
一旦用户进入实验组,该用户后续的数据也要放到实验组。比如特征触发下:实验针对一线用户,当用户触发后又移动到二线城市,其后续行为也需要统计。在行为触发场景下:比如实验针对最近30天不活跃用户召回短信,用户点击短信活跃后,其后续行为需要统计到实验组。
因为指标统计是整个实验期间,但用户触发可能发生在中段,其前面的行为未在实验组中,如何处理?一般是忽略这个差异,直接统计全量
实验效果指标
染色指标:全局的指标分流可以称为染色日志。所有大盘用户都参与指标计算,计算出的指标称为染色指标,代表的是大盘的影响和变化,优点是可以反映大盘的变化,缺点是不容易检出实验效果。
触发指标:真实参与实验用户被称为实验参与用户,也就是也就是触发用户、命中用户。计算出的指标称为参与指标、触发指标,优点是容易检验出效果,缺点是可能无法直接反映对大盘的整体效果
计算
触发的是大盘用户(行为触发):不需要稀释百分比
触发的是特征用户(特征触发):比如实验仅对高活用户,需要考虑触发率
如何验证触发实验提升了灵敏性(系统)
空转实验(AA实验),计算第一类错误的发生率,降低了发生率即提升了灵敏性
固定收益实验:即在AB实验的基础上假定一个指标的提升量,统计实际AB结果显著性与假定提升量的一致性,并将一致的占比记为召回率。看召回率的提升情况。
收藏
收藏
0 条评论
下一页