推荐系统背后链路: 解码小红书冷启动流量算法
2024-02-23 19:57:29 0 举报
AI智能生成
登录查看完整内容
推荐系统背后链路:解码小红书冷启动流量算法
作者其他创作
大纲/内容
1 召回:⽤多条通道,取回⼏千篇笔记。2 粗排:⽤⼩规模神经⽹络,给⼏千篇笔记打分,选出分数最⾼的⼏百篇。3 精排:⽤⼤规模神经⽹络,给⼏百篇笔记打分。4 重排:做多样性抽样、规则打散、插⼊广告和运营笔记
推荐系统链路
• ⼩红书上⽤户新发布的笔记。• B站上⽤户新上传的视频。• 今⽇头条上作者新发布的⽂章。
什么是社区UGC物品冷启动?
新内容缺少与⽤户的交互,导致推荐的难度⼤、效果差。
扶持新发布、低曝光的笔记,可以增强作者发布意愿。
为什么要特殊对待新内容?
精准推荐:克服冷启的困难,把新内容推荐给合适的⽤户,不引起⽤户反感。
激励发布:流量向低曝光新内容倾斜,激励作者发布。
挖掘⾼潜:通过初期⼩流量的试探,找到⾼质量的内容,给与流量倾斜。
优化冷启动内容的目标
• 发布渗透率、⼈均发布量反映出作者的发布积极性。• 冷启的重要优化⽬标是促进发布,增⼤内容池。
发布渗透率 = 当⽇发布⼈数 / ⽇活⼈数
⼈均发布量 = 当⽇发布笔记数 / ⽇活⼈数
作者侧指标
新笔记的点击率、交互率。。问题:曝光的基尼系数很⼤。• 少数头部新笔记占据了⼤部分的曝光。交互率:点赞率 评价率 收藏率 阅读完成率
分别考察⾼曝光、低曝光新笔记。• ⾼曝光:⽐如>1000次曝光。• 低曝光:⽐如<1000次曝光。
新笔记的消费指标
⼤盘的消费时长、⽇活、⽉活。
⼤⼒扶持低曝光新笔记会发⽣什么?• 作者侧发布指标变好。• ⽤户侧⼤盘消费指标变差。
⼤盘消费指标
用户侧指标
⾼热内容占⽐• ⾼热内容:前 30 天获得 1000+ 次点击。• ⾼热内容占⽐越⾼,说明冷启阶段挖掘优质笔记的能⼒越强。
内容侧指标
内容冷启的评价指标
社区UGC冷启动
内容信息提取:新内容刚上传时,没有用户行为信息,只能通过内容信息进行分发。运用 NLP、CV 和多模态融合技术,提取内容信息,生成相关的话题和内容特征。
种子人群圈选和投放:利用内容信息定位目标人群,根据内容信息,判断哪些人群对新内容更感兴趣。新内容在种子人群中的投放,借助贝叶斯寻优调整 boost 系数,找到用户指标损失和新内容曝光的最优权衡。
基于行为反馈的人群扩散:初期分发后,新内容会积累一定的用户反馈。将这些新内容也分发给与反馈用户相似的其他用户。通过 lookalike 模型进行人群扩散,根据与新内容有过交互的用户向量生成新内容向量,并将其作为向量索引。通过定义不同的用户向量和新内容向量的相似度函数,小红书推荐系统 lookalike模型的点击率提高了约 7%。
模型承接:在完成初期的冷启动后,新内容进入正常分发阶段。模型的时效性决定了模型是否能有效处理新内容。通过持续迭代,目前小红书首页推荐的召回、粗排和精排模型的训练都做到了分钟级更新。
小红书内容冷启动链路
每日新内容占 40% 曝光,新内容的分发效率(pCTR)与老内容持平,且 24 小时内冷启动完成率超过 98%。
⾃带图⽚、⽂字、地点。算法或⼈⼯标注的标签。没有⽤户点击、点赞等信息。缺少⽤户交互,导致通用的物品协同模型双塔模型效果不好。
内容冷启召回依据和难点
类⽬召回• 系统维护类⽬索引:类⽬—笔记列表(按时间倒排)• ⽤类⽬索引做召回:⽤户画像 —类⽬ —笔记列表• 取回笔记列表上前 k 篇笔记(即最新的 k 篇)。
关键词召回• 系统维护关键词索引:关键词—笔记列表(按时间倒排)• 根据⽤户画像上的关键词做召回。
类目召回和关键词召回缺点• 缺点1:只对刚刚发布的新笔记有效。• 取回某类⽬/关键词下最新的 k 篇笔记。• 发布⼏⼩时之后,就再没有机会被召回。• 缺点2:弱个性化,不够精准。
内容冷启简单的召回通道
• 基本思想:根据⽤户的点赞、收藏、转发记录,推荐内容相似的笔记。• 线下训练:多模态神经⽹络把图⽂内容映射到向量。• 线上服务:⽤户喜欢的笔记 —特征向量— 最近的Cluster— 新笔记
聚类召回
点击、点赞、收藏、转发——⽤户对笔记可能感兴趣。把有交互的⽤户作为新笔记的种⼦⽤户。⽤ look-alike 在相似⽤户中扩散。
Look-Alike⼈群扩散召回
内容冷启的召回通道
优化全链路(包括召回和排序)。
流量调控(流量怎么在新物品、⽼物品中分配)。
冷启动的优化点
⽬的1:促进发布,增⼤内容池。
⽬的2:挖掘优质笔记。
为什么给新笔记流量倾斜?
1. 在推荐结果中强插新笔记。2. 对新笔记的排序分数做提权(boost)。3. 通过提权,对新笔记做保量。4. 差异化保量。
新笔记流量调控的发展
⽬标:让新笔记有更多机会曝光。单独的召回通道、在排序阶段提权。⼲涉粗排、重排环节,给新笔记提权。
优点:容易实现,投⼊产出⽐好。缺点: 曝光量对提权系数很敏感。 很难精确控制曝光量,容易过度曝光和不充分曝光。
新笔记提权
帮助新笔记在前 24 ⼩时获得 100 次曝光。(数值为举例)在原有提权系数的基础上,乘以额外的提权的系数,
保量的难点:好处:分数提升越多,曝光次数越多。坏处:把笔记推荐给不太合适的受众。• 点击率、点赞率等指标会偏低。• 长期会受推荐系统打压,难以成长为热门笔记。
新笔记保量
不同笔记有不同保量⽬标,普通笔记保 100 次曝光,内容优质的笔记保 100~500 次曝光。
基础保量:24 ⼩时 100 次曝光。内容质量:⽤模型评价内容质量⾼低,给予额外保量⽬标,上限是加 200 次曝光。作者质量:根据作者历史上的笔记质量,给予额外保量⽬标,上限是加 200 次曝光。 ⼀篇笔记最少有 100 次保量,最多有 500 次保量
差异化保量
内容冷启动 流量调控
作者侧指标:• 发布渗透率、⼈均发布量。
⽤户侧指标:• 对新笔记的点击率、交互率。• ⼤盘指标:消费时长、⽇活、⽉活。
观察指标
推荐系统的标准A/B测试
用户侧实验
缺点:新笔记和⽼笔记抢流量设定:新⽼笔记⾃由竞争。
缺点:新笔记池减⼩⼀半,对⽤户体验造成负⾯影响。新笔记的两个桶不抢流量,新笔记和⽼笔记抢流量,
缺点:不抢流量,但影响消费体验
作者侧实验
设计⽅案的时候,问⾃⼰⼏个问题:• 实验组、对照组新笔记会不会抢流量?• 新笔记、⽼笔记怎么抢流量?• 同时隔离笔记、⽤户,会不会让内容池变⼩?• 如果对新笔记做保量,会发⽣什么?
各种AB测试的⽅案都有缺陷。
内容冷启动的AB测试
B站 小红书推荐算法工程师 王树森 《推荐系统公开课——8小时完整版,讲解工业界真实的推荐系统》
小红书技术REDtech 《爆款背后的机制:解码小红书流量算法》
学习资料
推荐系统背后链路:解码小红书冷启动流量算法
0 条评论
回复 删除
下一页