数据处理策略用户标签的主要处理策略
过滤噪声:过滤停留时间短的点击,打击标题党
惩罚热点:用户在热广文章上的动作做降权处理
时间衰减:随用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大
惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚
考虑全局背景考虑给定特征的人均点击比例(做Ll-norm)
流式计算和批量计算混合适用
大部分userprofile采用流式计算
各个粒度的兴趣标签
垂直领域的profile
对时效性不敏感的user profile采用batch计算
性别、年龄
常驻地点