机器学习与推荐系统思维导图模板_ProcessOn思维导图、流程图

第1章推荐算法简介

推荐系统概述

-推荐系统的目的

推荐系统是信息过载所采用的措施，面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”;面向没有明确需求的人。

解决如何从大量信息中找到自己感兴趣的信息。

解决如何让自己生产的信息脱颖而出，受到大众的喜爱。

推荐系统的应用

推荐系统的基本思想

1. 利用用户和物品的特征信息,给用户推荐那些具有用户喜欢的特征的物品。

2. 利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品。

3. 利用和用户相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品。

推荐系统的数据分析

推荐系统分类

根据实时性分类

-离线推荐

-实时推荐

根据推荐是否个性化分类

-基于统计的推荐

-个性化推荐

根据推荐原则分类

-基于相似度的推荐

-基于知识的推荐

-基于模型的推荐

根据数据源分类

-基于人口统计学的推荐

-基于内容的推荐

基于协同过滤的推荐

推荐算法简介

基于人口统计学的推荐

基于内容的推荐

基于协同过滤的推荐

协同过滤( Collaborative Filtering , CF )

基于内容(Content based, CB)主要利用的是用户评价过的物品的内容特征，而CF方法还可以利用其他用户评分过的物品内容

CF可以解决CB的一-些局限

1. 物品内容不完全或者难以获得时，依然可以通过其他用户的反馈给出推荐

2. CF基于用户之间对物品的评价质量，避免了CB仅依赖内容可能造成的对物品质量判断的干扰

3. CF推荐不受内容限制，只要其他类似用户给出了对不同物品的兴趣，CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)

分为两类:基于近邻和基于模型

基于近邻的协同过滤

-基于用户( User-CF )

基于物品( Item-CF )

基于模型的协同过滤

-奇异值分解(SVD)

-潜在语义分析 (LSA)

-支撑向量机( SVM )

混合推荐.

加权混合

-用线性公式 ( linear formula )将几种不同的推荐按照一定权重组合起来,具体权重的值需要在测试数据集.上反复实验,从而达到最好的推荐效果

切换混合

-切换的混合方式 ,就是允许在不同的情况(数据量,系统运行状况,用户和物品的数目等)下，选择最为合适的推荐机制计算推荐

分区混合

-采用多种推荐机制 ,并将不同的推荐结果分不同的区显示给用户

分层混合

-采用多种推荐机制 ,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加准确的推荐

推荐系统评测

推荐系统实验方法

离线实验

-通过体制系统获得用户行为数据 ,并按照一-定格式生成一个标准的数据集

-将数据集按照一-定的规则分成训练集和测试集

一在训练集上训练用户兴趣模型,在测试集上进行预测

-通过事先定义的离线指标评测算法在测试集上的预测结果

用户调查

-用户调查需要有一些真实用户,让他们在需要测试的推荐系统上完成-些任务;我们需要记录他们的行为,并让他们回答一些问题;最后进行分析

在线实验

AB测试

推荐系统评测指标

预测准确度

信任度

用户满意度

实时性

覆盖率

●健壮性.

●多样性

商业目标.

惊喜度

推荐准确度评测

评分预测

均方根误差（RMSE）或平均绝对误差（MAE）计算

Top-N推荐

精确率（precision）和召回率（recall）

第2章数学基础

线性代数知识

什么是矩阵

矩阵的定义

特殊矩阵

矩阵中的概念

特殊矩阵

矩阵加减法

矩阵中的基本概念

矩阵的加法

矩阵的乘法

矩阵的转置

矩阵的运算法则

矩阵的逆

微积分知识

什么是导数

偏导数

方向导数和梯度

方向导数：任意方向的变化率

梯度：某一方向上变化率最大

凸函数和凹函数

概率与统计知识

常用统计变量

样本均值

样本方差

极大似然估计

样本标准差

常见概率分布

均匀分布

正态分布

指数分布

重要概率公式

条件概率公式

全概率公式

贝叶斯公式

先验概率和后验概率

第3章机器学习基础

1. 机器学习的概念

机器学习是什么

机器学习的开端

机器学习的定义

机器学习的过程

机器学习示例

2. 机器学习主要分类

机器学习的主要分类

有监督学习:提供数据并提供数据对应结果的机器学习过程。

无监督学习:提供数据并且不提供数据对应结果的机器学习过程。

强化学习:通过与环境交互并获取延迟返回进而改进行为的学习过程。

无监督学习

无监督学习(Unsupervised Learning)算法采用- -组仅包含输入的.数据，通过寻找数据中的内在结构来进行样本点的分组或聚类。

算法从没有被标记或分类的测试数据中学习。

无监督学习算法不是响应反馈，而是要识别数据中的共性特征;对于一个新数据，可以通过判断其中是否存在这种特征，来做出相应的反馈。

无监督学习的核心应用是统计学中的密度估计和聚类分析。

无监督学习应用

监督学习

监督学习(Supervised Learning)算法构建了包含输入和所需输出的一组数据的数学模型。这些数据称为训练数据，由-组训练样本组成。

监督学习主要包括分类和回归。

当输出被限制为有限的一-组值(离散数值)时使用分类算法;当输出可以具有范围内的任何数值(连续数值)时使用回归算法。

相似度学习是和回归和分类都密切相关的一类监督机器学习，它的目标是使用相似性函数从样本中学习，这个函数可以度量两个对象之间的相似度或关联度。它在排名、推荐系统、视觉识别跟踪、人脸识别等方面有很好的应用场景。

监督学习应用

预测房价

3. 监督学习深入理解

监督学习三要素

模型(model) :总结数据的内在规律，用数学函数描述的系统

策略(strategy) :选取最优模型的评价准则

算法(algorithm) :选取最优模型的具体方法

监督学习实现步骤

得到一个有限的训练数据集

确定包含所有学习模型的集合

确定模型选择的准则，也就是学习策略

实现求解最优模型的算法,

也就是学习算法

通过学习算法选择最优模型

利用得到的最优模型，对新数据进行预测或分析

监督学习模型评估策略

模型评估

训练集和测试集

损失函数和经验风险

训练误差和测试误差

模型选择

过拟合和欠拟合

正则化和交叉验证

训练集和测试集

损失函数

概念

损失函数用来衡量模型预测误差的大小。

定义:选取模型f为决策函数，对于给定的输入参数X，f(X) 为预测结果，Y 为真实结果; f(X) 和Y之间可能会有偏差，我们就用一个损失函数(loss function)来度量预测偏差的程度，记作L(Y,f(X))

损失函数是系数的函数

损失函数值越小，模型就越好

分类

0-1损失函数

平方损失函数

绝对损失函数

对数损失函数

概率越大损失函数越小

经验风险

模型 f(X) 关于训练数据集的平均损失称为经验风险

经验风险最小化( Empirical Risk Minimization，ERM )

-这一策略认为, 经验风险最小的模型就是最优的模型

样本足够大时，ERM有很好的学习效果，因为有足够多的“经验”

样本较小时, ERM就会出现一些问题

训练误差和测试误差

训练误差（training error）是关于训练集的平均损失。

测试误差（testing error）是关于测试集的平均损失。

测试误差真正反映了模型对未知数据的预测能力，这种能力一般被称为泛化能力

过拟合和欠拟合

欠拟合

模型没有很好地捕捉到数据特征，特征集过小，导致模型不能很好地拟合数据,称之为欠拟合(under-fitting) 。

欠拟合的本质是对数据的特征“学习”得不够

例如，想分辨一只猫，只给出了四条腿、两只眼、有尾巴这三个特征，那么由此训练出来的模型根本无法分辨猫

过拟合

模型的选择

正则化

特征向量的L1范数L2

奥卡姆剃刀

交叉验证

分类和回归

分类问题

分类问题可以用很多学习方法来解决，比如k近邻、决策树、感知机、逻辑斯谛回归、支撑向量机、朴素贝叶斯法、神经网络等

精确率和召回率

TP:将正类预测为正类的数目

FN:将正类预测为负类的数目

FP:将负类预测为正类的数目

TN:将负类预测为负类的数目

回归问题

监督学习模型求解算法

梯度下降算法

梯度是增加最快的方向

负梯度是减少最快的方向

牛顿法和拟牛顿法

第4章机器学习模型介绍

➢监督学习

●回归模型

线性回归模型

. -元线性回归

多元线性回归

如果有两个或两个以上的自变量，这样的线性回归分析就称为多元线性回归

实际问题中，-个现象往往是受多个因素影响的，所以多元线性回归比一元线性回归的实际应用更广

梯度下降法求解线性回归

非线性回归模型

最小二乘法

在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小。

代码实现

●分类模型

- k近邻(kNN)

KNN示例

KNN距离计算

KNN算法

代码实现

-逻辑斯谛回归

Sigmoid函数（压缩函数）

逻辑斯谛回归损失函数

损失函数

梯度下降法求解

决策树

决策树示例

决策树与 if-then 规则

决策树的目标

特征选择

随机变量

熵

熵的示例

决策树的目标

条件熵（conditional entropy）

信息增益

决策树的生成算法

ID3

C4.5

分类与回归树(CART)

无监督学习

聚类

k均值

基于密度的聚类

最大期望聚类

降维

潜语义分析(LSA)

主成分分析(PCA)

奇异值分解(SVD)

第5章推荐系统算法详解

基于人口统计学的推荐

用户画像

基于内容的推荐

相似度计算

基于内容的推荐算法

对于物品的特征提取- -打标签 ( tag )

专家标签(PGC)

-用户自定义标签(UGC)

降维分析数据，提取隐语义标签(LFM)

对于文本信息的特征提取一关键词

分词、语义处理和情感分析(NLP)

潜在语义分析(LSA)

基于内容推荐系统的高层次结构

特征工程

数值型特征处理

归一化

离散化

让座

电商价格

等步长和等频

类别型特征处理

时间型特征处理

连续值

离散值

统计型特征处理

推荐系统常见反馈数据

基于 UGC 的推荐

计算公式

问题

新闻内容的关键字提取

权重

TF-IDF

词频-逆文档频率(Term Frequency-nverse Document Frequency，TF-IDF) 是- -种用于资讯检索与文本挖掘的常用加权技术

算法示例

基于协同过滤的推荐

基于近邻的协同过滤

基于用户(User-CF)

用户近邻，K-近邻

基于物品(Item-CF)

比较和优缺点

基于模型的协同过滤

基本思想

隐语义模型（LFM）

LFM 降维方法 —— 矩阵因子分解

用户特征矩阵

物品特征矩阵

模型的求解 —— 损失函数

稀疏举证求解方法

平方损失函数+正则化相

模型的求解算法 —— ALS

ALS 算法

梯度下降算法

代码实现

-奇异值分解(SVD)

潜在语义分析(LSA)

支撑向量机(SVM)

第6章电影推荐系统设计

项目框架

大数据处理流程

数据生命周期

大数据处理流程

系统模块设计

项目系统架构

项目数据流图

数据源解析

电影信息

用户评分信息

电影标签信息.

主要数据模型

统计推荐模块

历史热门电影统计

近期热门]电影统计

电影平均评分统计

各类别Top10优质电影统计

离线推荐模块

用AL S算法训练隐语义模型

ALS推荐模型训练

计算用户推荐矩阵

计算电影相似度矩阵

实时推荐模块

实时推荐架构

基于模型的实时推荐模块

推荐优先级计算

实时推荐优先级计算

基于内容的推荐模块