推荐系统实践
2016-11-28 21:20:13 1 举报
AI智能生成
121
作者其他创作
大纲/内容
推荐系统实践
评测预测结果
测试集上进行预测
训练集上训练用户兴趣模型
分成训练集和测试集
生成标准的数据集
离线实验
AB测试
在线实验
双盲测试
用户调查
试验方法
满足用户需求
用户感兴趣
自我完善
好的推荐系统
调查问卷
用户满意度
均方根误差RMSE
评分预测
准确率precision
召回率recall
准确率召回率曲线precision/recall curve
TOPN推荐
预测准确度
信息熵
基尼系数
所有物品均匀的出现在推荐列表中
长尾物品的发掘能力
覆盖率
多样性和相似性是对应的
多样性
不牺牲精度的情况下提高新颖性和多样性
推荐未听说过的物品
新颖性
莫名其妙
喜欢
惊喜度
熟人推荐
权威推荐
信任度
用户新行为
新物品
实时性
抗击作弊
健壮性
经济效益最大化
商业目标
测评指标
推荐系统测评
用户ID、物品ID Book-Crossing
无上下文信息的隐性反馈数据集
用户ID、物品ID、评分
无上下文信息的显示反馈数据集
用户ID、物品ID、行为时间戳
有上下文信息的隐性反馈数据集
用户ID、物品ID、评分、行为时间戳
有上下文信息的显性反馈数据集
用户行为数据
PowerLaw分布也称长尾分布
用户活跃度和物品流行度分布
活跃用户倾向浏览冷门物品
用户活跃度和物品流行度的关系
用户行为分析
GroupLens提供的MovieLens数据集
数据集
M-1份作为训练集
1份作为测试集
数据集分成M份
进行M次实验,每次用不同的测试集
防止过拟合
协同过滤算法
实验设计
准确率
召回率
评测指标
实验设计和算法评测
Jaccard公式
余弦相似度
物品-用户倒排序列表
用户相似度矩阵
判断分子非0
计算量大
行为相似度计算兴趣相似度
惩罚热门物品
用户相似度计算改进
兴趣相似度
找到和目标用户兴趣相似的用户集合
找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户
基于用户协同过滤
计算物品之间的相似度。
根据物品的相似度和用户的历史行为给用户生成推荐列表
基于物品协同过滤
基于邻域的算法
自动聚类
通过隐含特征(latent factor)联系用户兴趣和物品。
最优理论或者机器学习
用户兴趣和隐类个关系、物品和隐类的关系
对每个用户,要保证正负样本的平衡
对每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品
负样本
隐特征的个数F
学习速率alpha
正则化参数lambda
在一定范围内随着负样本数目的增加,LFM的准确率和召回率有明显提高
随着负样本数目的增加,覆盖率不断降低,而推荐结果的流行度不断增加
影响最大
负样本/正样本比例 ratio
重要参数
LFM
隐语义模型
用户行为数据的二分图表示
两个顶点之间的路径数
两个顶点之间路径的长度
两个顶点之间的路径经过的顶点
两个顶点之间有很多路径相连
连接两个顶点之间的路径长度都比较短
连接两个顶点之间的路径不会经过出度比较大的顶点
相关性高的特征
访问概率
会影响精度
减少迭代数
矩阵论出发,重新计算
时间复杂度高
基于随机游走的PersonalRank算法
两个顶点的相关性
基于图的推荐算法
基于图的模型
利用用户行为
0 条评论
回复 删除
下一页