机器学习与推荐系统
2021-12-25 01:27:57 36 举报
AI智能生成
登录查看完整内容
机器学习与推荐系统
作者其他创作
大纲/内容
解决如何从大量信息中找到自己感兴趣的信息。
解决如何让自己生产的信息脱颖而出,受到大众的喜爱。
-推荐系统的目的
推荐系统的应用
推荐系统的基本思想
推荐系统的数据分析
-离线推荐
-实时推荐
根据实时性分类
-基于统计的推荐
-个性化推荐
根据推荐是否个性化分类
-基于相似度的推荐
-基于知识的推荐
-基于模型的推荐
根据推荐原则分类
-基于人口统计学的推荐
-基于内容的推荐
基于协同过滤的推荐
根据数据源分类
推荐系统分类
推荐系统概述
基于人口统计学的推荐
基于内容的推荐
1. 物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐
2. CF基于用户之间对物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰
3. CF推荐不受内容限制,只要其他类似用户给出了对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)
CF可以解决CB的一-些局限
分为两类:基于近邻和基于模型
-基于用户( User-CF )
基于物品( Item-CF )
基于近邻的协同过滤
-奇异值分解(SVD)
-潜在语义分析 (LSA)
-支撑向量机( SVM )
基于模型的协同过滤
加权混合
切换混合
分区混合
分层混合
混合推荐.
推荐算法简介
-将数据集按照一-定的规则分成训练集和测试集
-通过事先定义的离线指标评测算法在测试集 上的预测结果
离线实验
用户调查
AB测试
在线实验
推荐系统实验方法
预测准确度
信任度
用户满意度
实时性
覆盖率
●健壮性.
●多样性
商业目标.
惊喜度
推荐系统评测指标
均方根误差(RMSE)或平均绝对误差(MAE)计算
评分预测
精确率(precision)和召回率(recall)
Top-N推荐
推荐准确度评测
推荐系统评测
第1章 推荐算法简介
矩阵的定义
特殊矩阵
矩阵中的概念
矩阵加减法
什么是矩阵
矩阵中的基本概念
矩阵的加法
矩阵的乘法
矩阵的转置
矩阵的运算法则
矩阵的逆
线性代数知识
什么是导数
偏导数
方向导数:任意方向的变化率
梯度:某一方向上变化率最大
方向导数和梯度
凸函数和凹函数
微积分知识
样本均值
极大似然估计
样本方差
样本标准差
常用统计变量
均匀分布
正态分布
指数分布
常见概率分布
条件概率公式
全概率公式
先验概率和后验概率
贝叶斯公式
重要概率公式
概率与统计知识
第2章 数学基础
机器学习是什么
机器学习的开端
机器学习的定义
机器学习的过程
机器学习示例
1. 机器学习的概念
有监督学习:提供数据并提供数据对应结果的机器学习过程。
无监督学习:提供数据并且不提供数据对应结果的机器学习过程。
强化学习:通过与环境交互并获取延迟返回进而改进行为的学习过程。
机器学习的主要分类
无监督学习(Unsupervised Learning)算法采用- -组仅包含输入的.数据,通过寻找数据中的内在结构来进行样本点的分组或聚类。
算法从没有被标记或分类的测试数据中学习。
无监督学习算法不是响应反馈,而是要识别数据中的共性特征;对于一个新数据,可以通过判断其中是否存在这种特征,来做出相应的反馈。
无监督学习的核心应用是统计学中的密度估计和聚类分析。
无监督学习
无监督学习应用
监督学习(Supervised Learning)算法构建了包含输入和所需输出的一组数据的数学模型。这些数据称为训练数据,由-组训练样本组成。
监督学习主要包括分类和回归。
当输出被限制为有限的一-组值(离散数值)时使用分类算法;当输出可以具有范围内的任何数值(连续数值)时使用回归算法。
相似度学习是和回归和分类都密切相关的一类监督机器学习,它的目标是使用相似性函数从样本中学习,这个函数可以度量两个对象之间的相似度或关联度。它在排名、推荐系统、视觉识别跟踪、人脸识别等方面有很好的应用场景。
监督学习
预测房价
监督学习应用
2. 机器学习主要分类
模型(model) :总结数据的内在规律,用数学函数描述的系统
策略(strategy) :选取最优模型的评价准则
算法(algorithm) :选取最优模型的具体方法
监督学习三要素
得到一个有限的训练数据集
确定包含所有学习模型的集合
确定模型选择的准则,也就是学习策略
也就是学习算法
通过学习算法选择最优模型
利用得到的最优模型,对新数据进行预测或分析
监督学习实现步骤
训练集和测试集
损失函数和经验风险
训练误差和测试误差
模型评估
过拟合和欠拟合
正则化和交叉验证
模型选择
损失函数用来衡量模型预测误差的大小。
损失函数是系数的函数
损失函数值越小,模型就越好
概念
0-1损失函数
平方损失函数
绝对损失函数
概率越大损失函数越小
对数损失函数
分类
损失函数
模型 f(X) 关于训练数据集的平均损失称为经验风险
样本足够大时,ERM有很好的学习效果,因为有足够多的“经验”
经验风险最小化( Empirical Risk Minimization,ERM )
经验风险
训练误差(training error)是关于训练集的平均损失。
测试误差(testing error)是关于测试集的平均损失。
测试误差真正反映了模型对未知数据的预测能力,这种能力一般被称为 泛化能力
欠拟合的本质是对数据的特征“学习”得不够
例如,想分辨一只猫,只给出了四条腿、两只眼、有尾巴这三个特征,那么由此训练出来的模型根本无法分辨猫
欠拟合
过拟合
模型的选择
特征向量的L1范数L2
正则化
奥卡姆剃刀
交叉验证
监督学习模型评估策略
分类问题可以用很多学习方法来解决,比如k近邻、决策树、感知机、逻辑斯谛回归、支撑向量机、朴素贝叶斯法、神经网络等
分类问题
TP:将正类预测为正类的数目
FN:将正类预测为负类的数目
FP:将负类预测为正类的数目
TN:将负类预测为负类的数目
精确率和召回率
回归问题
分类和回归
梯度是增加最快的方向
负梯度是减少最快的方向
梯度下降算法
牛顿法和拟牛顿法
监督学习模型求解算法
3. 监督学习深入理解
第3章 机器学习基础
. -元线性回归
如果有两个或两个以上的自变量,这样的线性回归分析就称为多元线性回归
实际问题中,-个现象往往是受多个因素影响的,所以多元线性回归比一元线性回归的实际应用更广
梯度下降法求解线性回归
多元线性回归
线性回归模型
非线性回归模型
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
代码实现
最小二乘法
●回归模型
KNN示例
KNN距离计算
KNN算法
- k近邻(kNN)
Sigmoid函数(压缩函数)
逻辑斯谛回归损失函数
梯度下降法求解
-逻辑斯谛回归
决策树示例
决策树与 if-then 规则
决策树的目标
特征选择
随机变量
熵
熵的示例
条件熵(conditional entropy)
信息增益
ID3
C4.5
分类与回归树(CART)
决策树的生成算法
决策树
●分类模型
➢监督学习
k均值
基于密度的聚类
最大期望聚类
聚类
潜语义分析(LSA)
主成分分析(PCA)
奇异值分解(SVD)
降维
第4章 机器学习模型介绍
用户画像
相似度计算
专家标签(PGC)
-用户自定义标签(UGC)
降维分析数据,提取隐语义标签(LFM)
对于物品的特征提取- -打标签 ( tag )
分词、语义处理和情感分析(NLP)
潜在语义分析(LSA)
对于文本信息的特征提取一关键词
基于内容的推荐算法
基于内容推荐系统的高层次结构
归一化
让座
电商价格
等步长和等频
离散化
数值型特征处理
类别型特征处理
连续值
离散值
时间型特征处理
统计型特征处理
推荐系统常见反馈数据
特征工程
计算公式
新闻内容的关键字提取
权重
问题
基于 UGC 的推荐
词频-逆文档频率(Term Frequency-nverse Document Frequency,TF-IDF) 是- -种用于资讯检索与文本挖掘的常用加权技术
超链接
算法示例
TF-IDF
用户近邻,K-近邻
基于用户(User-CF)
基于物品(Item-CF)
比较和优缺点
基本思想
用户特征矩阵
物品特征矩阵
LFM 降维方法 —— 矩阵因子分解
稀疏举证求解方法
平方损失函数+正则化相
模型的求解 —— 损失函数
模型的求解算法 —— ALS
ALS 算法
隐语义模型(LFM)
支撑向量机(SVM)
第5章 推荐系统算法详解
数据生命周期
大数据处理流程
系统模块设计
项目系统架构
项目数据流图
项目框架
电影信息
用户评分信息
电影标签信息.
主要数据模型
数据源解析
历史热门电影统计
近期热门]电影统计
电影平均评分统计
各类别Top10优质电影统计
统计推荐模块
ALS推荐模型训练
用AL S算法训练隐语义模型
计算用户推荐矩阵
计算电影相似度矩阵
离线推荐模块
基于模型的实时推荐模块
推荐优先级计算
实时推荐架构
实时推荐优先级计算
实时推荐模块
基于内容的推荐模块
第6章 电影推荐系统设计
机器学习与推荐系统
收藏
收藏
0 条评论
回复 删除
下一页