推荐系统背后链路：解码小红书冷启动流量算法思维导图模板

推荐 系统 链路

1 召回：⽤多条通道，取回⼏千篇笔记。 2 粗排：⽤⼩规模神经⽹络，给⼏千篇笔记打分， 选出分数最⾼的⼏百篇。 3 精排：⽤⼤规模神经⽹络，给⼏百篇笔记打分。 4 重排：做多样性抽样、规则打散、插⼊广告和运营笔记

社区UGC 冷启动

什么是社区UGC 物品冷启动？

• ⼩红书上⽤户新发布的笔记。 • B站上⽤户新上传的视频。 • 今⽇头条上作者新发布的⽂章。

为什么要特殊对 待新内容？

新内容缺少与⽤户的交互，导致推荐 的难度⼤、效果差。

扶持新发布、低曝光的笔记，可以增 强作者发布意愿。

优化冷启动内容 的目标

精准推荐：克服冷启的困难，把新内容推荐给合 适的⽤户，不引起⽤户反感。

激励发布：流量向低曝光新内容倾斜，激励作者 发布。

挖掘⾼潜：通过初期⼩流量的试探，找到⾼质量 的内容，给与流量倾斜。

内容冷启的 评价指标

作者侧指标

• 发布渗透率、⼈均发布量反映出作者的发布积极性。 • 冷启的重要优化⽬标是促进发布，增⼤内容池。

发布渗透率 = 当⽇发布⼈数 / ⽇活⼈数

⼈均发布量 = 当⽇发布笔记数 / ⽇活⼈数

用户侧指标

新笔记的消费指标

新笔记的点击率、交互率。 。问题：曝光的基尼系数很⼤。 • 少数头部新笔记占据了⼤部分的曝光。 交互率：点赞率  评价率收藏率阅读完成率

分别考察⾼曝光、低曝光新笔记。 • ⾼曝光：⽐如>1000次曝光。 • 低曝光：⽐如<1000次曝光。

⼤盘消费指标

⼤盘的消费时长、⽇活、⽉活。

⼤⼒扶持低曝光新笔记会发⽣什么？ • 作者侧发布指标变好。 • ⽤户侧⼤盘消费指标变差。

内容侧指标

⾼热内容占⽐ • ⾼热内容：前 30 天获得 1000+ 次点击。 • ⾼热内容占⽐越⾼，说明冷启阶段挖掘优质笔记 的能⼒越强。

小红书内容 冷启动链路

内容信息提取：新内容刚上传时，没有用户行为信息，只能通过内容信息进行分发。运用 NLP、CV 和多模态融合技术，提取内容信息，生成相关的话题和内容特征。

种子人群圈选和投放：利用内容信息定位目标人群，根据内容信息， 判断哪些人群对新内容更感兴趣。新内容在种子人群中的投放， 借助贝叶斯寻优调整 boost 系数，找到用户指标损失和新内容曝光的最优权衡。

基于行为反馈的人群扩散：初期分发后，新内容会积累一定的用户反馈。将这些新内容也分发给与反馈用户相似的其他用户。通过 lookalike 模型进行人群扩散，根据与新内容有过交互的用户向量生成新内容向量，并将其作为向量索引。通过定义不同的用户向量和新内容向量的相似度函数，小红书推荐系统 lookalike模型的点击率提高了约 7%。

模型承接：在完成初期的冷启动后，新内容进入正常分发阶段。 模型的时效性决定了模型是否能有效处理新内容。通过持续迭代，目前小红书首页推荐的召回、 粗排和精排模型的训练都做到了分钟级更新。

内容冷启的 召回通道

内容冷启召回 依据和难点

⾃带图⽚、⽂字、地点。算法或⼈⼯标注的标签。 没有⽤户点击、点赞等信息。缺少⽤户交互， 导致通用的物品协同模型双塔模型效果不好。

内容冷启 简单的召回通道

类⽬召回 • 系统维护类⽬索引： 类⽬—笔记列表（按时间倒排） • ⽤类⽬索引做召回： ⽤户画像 —类⽬ —笔记列表 • 取回笔记列表上前 k 篇笔记（即最新的 k 篇）。

关键词召回 • 系统维护关键词索引： 关键词—笔记列表（按时间倒排） • 根据⽤户画像上的关键词做召回。

类目召回和关键词召回缺点 • 缺点1：只对刚刚发布的新笔记有效。 • 取回某类⽬/关键词下最新的 k 篇笔记。 • 发布⼏⼩时之后，就再没有机会被召回。 • 缺点2：弱个性化，不够精准。

聚类召回

• 基本思想： 根据⽤户的点赞、收藏、转发记录，推荐内容 相似的笔记。 • 线下训练： 多模态神经⽹络把图⽂内容映射到向量。 • 线上服务： ⽤户喜欢的笔记 —特征向量— 最近的Cluster— 新笔记

Look-Alike ⼈群扩散召回

<ul><li>点击、点赞、收藏、转发——⽤户对笔记可能感兴趣。</li><li>把有交互的⽤户作为新笔记的种⼦⽤户。</li><li>⽤ look-alike 在相似⽤户中扩散。</li></ul>

内容冷启动  流量调控

冷启动的优化点

优化全链路（包括召回和排序）。

流量调控（流量怎么在新物品、⽼物品中分配）。

为什么给新笔记 流量倾斜？

⽬的1：促进发布，增⼤内容池。

<div>⽬的2：挖掘优质笔记。</div>

新笔记流量 调控的发展

1. 在推荐结果中强插新笔记。 2. 对新笔记的排序分数做提权（boost）。 3. 通过提权，对新笔记做保量。 4. 差异化保量。

新笔记 提权

⽬标：让新笔记有更多机会曝光。 单独的召回通道、在排序阶段提权。 ⼲涉粗排、重排环节，给新笔记提权。

优点：容易实现，投⼊产出⽐好。 缺点： 曝光量对提权系数很敏感。 很难精确控制曝光量， 容易过度曝光和不充分曝光。

新笔记 保量

帮助新笔记在前 24 ⼩时获得 100 次曝光。（数值为举例） 在原有提权系数的基础上，乘以额外的提权的系数，

保量的难点： 好处：分数提升越多，曝光次数越多。 坏处：把笔记推荐给不太合适的受众。 • 点击率、点赞率等指标会偏低。 • 长期会受推荐系统打压，难以成长为热门笔记。

差异化 保量

不同笔记有不同保量⽬标，普通笔记 保 100 次曝光，内容优质的笔记保 100~500 次曝光。

<ul><li>基础保量：24 ⼩时 100 次曝光。</li><li>内容质量：⽤模型评价内容质量⾼低， 给予额外保量⽬标，上限是加 200 次曝光。</li><li>作者质量：根据作者历史上的笔记质量， 给予额外保量⽬标，上限是加 200 次曝光。</li><li> ⼀篇笔记最少有 100 次保量， 最多有 500 次保量</li></ul>

内容冷启动 的AB测试

观察指标

作者侧指标： • 发布渗透率、⼈均发布量。

⽤户侧指标： • 对新笔记的点击率、交互率。 • ⼤盘指标：消费时长、⽇活、⽉活。

推荐系统的 标准A/B测试

用户侧实验

作者侧实验

缺点：新笔记和⽼笔记抢流量 设定：新⽼笔记⾃由竞争。

缺点：新笔记池减⼩⼀半，对⽤户体验造成负⾯ 影响。新笔记的两个桶不抢流量，新笔记和⽼笔记抢流量，

缺点：不抢流量，但影响消费体验

各种AB测试的 ⽅案都有缺陷。

设计⽅案的时候，问⾃⼰⼏个问题： • 实验组、对照组新笔记会不会抢流量？ • 新笔记、⽼笔记怎么抢流量？ • 同时隔离笔记、⽤户，会不会让内容池变⼩？ • 如果对新笔记做保量，会发⽣什么？