基于协同过滤的搜索推荐系统
2023-10-31 10:58:13 0 举报
AI智能生成
登录查看完整内容
基于协同过滤的搜索推荐系统 广告推荐 电商推荐 新闻推荐 基于用户的协同过滤推荐 基于内容项的协同过滤推荐 基于模型的协同过滤推荐 协同过滤存在的问题 加权混合协同过滤算法 转换混合协同过滤算法 分区混合协同过滤算法 分层混合协同过滤算法
作者其他创作
大纲/内容
协同过滤虽然能帮助用户找到合适的推荐列表,在实践中得到广泛的应用,但是也存在着一下一些问题
冷启动问题可以分为2类
新系统问题就是数据不足,数据质量低
外框
当系统建立之初,还未收到足够的用户信息,协同过滤算法不能为指定用户找到合适的邻居,从而无法向用户提供推荐预测
第1类冷启动问题
新人/新品问题
对于新注册的用户或者新加入的商品,由于系统里面没有他们的历史数据信息,所以协同过滤算法也无法为用户预测推荐
第2类冷启动问题
冷启动问题
稀疏性问题 - 用户很少对内容进行评分
错误偏好问题- 少部分人的错误偏好会降低推荐的准备性
稀疏性问题指的是在实际情况下,用户很少会对每个内容项进行评分,所以真实的用户-内容项的相似矩阵是稀疏的(即矩阵中的很多元素都是0,表示用户对该内容未进行评分)从而降低了计算效率,而且少部分人的错误偏好会降低推荐的准确性
稀疏性问题
新品不会被推荐给用户
用户可能对冷门或小众内容也感兴趣
最初评价问题指的是,对于一些从未被评过分的内容,比如新加进的内容或者比较小众的内容,他们是不可能会被推荐给用户的,而用户可能会对一些冷门内容也感兴趣
最初评价问题
用户和内容增加,计算量大大增加,系统性能降低
随着推荐系统的发展,用户和内容数量的增加,计算用户或者内容项间的相似度时,计算复杂度会大大增加,从而导致系统的性能降低
扩展性不足问题
小众内容不能很好的推荐
系统会更偏向于为用户推荐比较流行的内容,因为评分覆盖面广。但是对于有着独特口味的用户来说,推荐系统不能提供很好的推荐。
流行性偏向问题
问题清单
协同过滤的不足
为了克服以上缺点,现今的推荐系统一般会采取混合的推荐机制来进行互补,而不是单单只采用某一种推荐策略。现在运用最广的推荐机制混合方法有以下几种方法
先用不同的推荐机制对用户进行推荐预测
然后再将他们的结果按照一定的权重加权求和得出最终的推荐预测
具体的权值设置需要根据实际情况决定
加权混合
在不同的状态和条件下,转换选择最为合适的推荐机制对齐进行预测
因为基于不同的情况,推荐机制的选择上可能会有很大的不同,为了充分利用各种推荐机制的优点
我们可以选择转换混合的方式对用户进行推荐预测
转换混合
同时采用多种不同的推荐机制,并将产生的不同结果分成不同的区域推荐给用户
分区混合的方法可以为用户提供更为全面的推荐结果
分区混合
和分区混合一样,分层混合也是采用多种不同的推荐机制,
但是不同的它是将一个推荐机制的结果作为下一个的输入,这样层层作用下去,最终得到一个推荐预测
分层混合的优点在于可以综合不同推荐机制的优缺点,从而提高推荐准确度
分层混合
混合推荐机制
概要
子主题
如何解决协同过滤的不足
在这个数据爆炸的时代,对于电子商务,社交网络或是个性化应用来说,如何能让用户更快速地定位自己想要的信息,如何让用户发掘出自己潜在的兴趣爱好,这是最为关键的。庞大的市场需求推动了推荐系统的发展,现如今,推荐系统已慢慢走向成熟。很多用户惊叹于推荐系统的能力,因为它不仅能找到与你喜好相似的内容,而且还能发掘出你潜在的喜好,可以这么说,推荐系统可能比你还更了解你自己的需求。推荐系统的发展又反作用推动了电子商务等应用的发展,现今的淘宝,京东和豆瓣等网站用户数量已突破千万,更多的用户享受到推荐引擎的美妙之处。
而这篇文章揭示了推荐引擎的背后原理,详细地介绍了推荐引擎最核心的协同过滤算法。原来推荐引擎并没有你想象中的那么复杂,它只是先记录下所有用户的行为信息,然后基于协同过滤的算法,利用这海量的信息,找出与你有着相似喜好的用户,最后把他们的喜好商品推荐给你。也就是说,协同过滤算法是借助他人的经验帮你找到你自己潜在的兴趣爱好,而实现这些的前提是需要具有大量的用户行为数据,而大数据时代正好可以满足这一前提条件。
当然协同过滤算法还没有走向真正的成熟,还存在大大小小的问题。但只要推荐系统能够根据不同的实际情况,选择不同种类的协同过滤方法或者将它们结合起来,就能得到一个令人较为满意的推荐结果。
总结
链接
https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html
https://zh.wikipedia.org/zh-hans/%E6%8E%A8%E8%96%A6%E7%B3%BB%E7%B5%B1
https://zh.m.wikipedia.org/zh-cn/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE
http://blog.csdn.net/zhangyuming010/article/details/38636931
参考文献
随着网络技术和信息科技的迅速发展,人们数据量的产出呈现出指数型增长,人类在近几年产生的数据量就已经相当于之前产生的所有数据量总和了,这意味着我们已经进入了一个数据大爆炸的时代。
Web 2.0的出现和发展使得人们将大量的数据分享在互联网中,而要想在这海量的数据中快速找到自己真正所需的信息,我们需要借助搜索引擎的力量,如常用的谷歌,百度和必应等。但是,搜索引擎也有它的局限性,搜索引擎要求用户输入一定的关键词,才能搜索出相对应的信息。但往往在现实中,用户并不很清楚自己的具体需求,从而无法用简单的关键词进行描述。在面对海量信息时,用户可能无法准确定位出对自己真正有用的信息。虽然信息量增加了,但是用户对信息的使用效率反而下降了,即出现信息超载的问题。针对这种情况,推荐系统应运而生。
维基百科这样解释道:推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。也就是说,推荐系统能够将用户可能感兴趣或者潜在的有用信息推荐给用户,最常用于电子商务网站(如淘宝,京东和当当网等)和个性化应用(如音乐,电影和图书推荐等)中。
那么,推荐系统到底是什么呢?
为了简单起见,我们先把推荐系统当作是一个黑盒,这个黑盒的输入包括物品的信息,用户的信息以及用户对物品的偏好等等。根据这些输入信息,系统会将物品推荐给对应的用户。推荐系统的主要推荐方法有以下几种:①、基于内容推荐、font color=\"#ff0000\
推荐系统的工作原理图如下:
背景介绍
协同过滤,英文名称为:Collaborative Filtering(协作过滤)。
“协同过滤是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以font color=\"#00ff00\
维基百科的定义可能有点生硬晦涩,我们来假设一个场景,如果你很喜欢刷剧,经常会碰到剧荒的情况,虽然新出的美剧,韩剧有很多,但是你不确定哪部剧比较适合你的口味,而你又不想花大量时间在选剧上,这时你可能会选择询问和自己有着相同口味的朋友,哪部剧值得推荐,从而达到以最小的开销来找到自己喜欢的电视剧的目的,这就是协同过滤的主要思想。
根据维基百科上的定义:
协同过滤与传统的基于内容过滤不同
基于内容过滤是先根据内容的属性,得出内容之间的相关性,然后通过用户的喜好记录将相关性大的内容推荐给用户。
基于内容过滤
而协同过滤是直接分析用户的喜好记录,在用户群体中寻找与之有着相似兴趣喜好的其他用户,然后综合分析这些用户对某一特定内容的评价,最后得出推荐系统为指定用户对某一特定内容喜好程度的预测。
在大数据时代的背景下,我们拥有着海量的用户群体,而协同过滤可以利用这大量的用户数据来发掘那些和你有着类似口味的用户,这些用户被称为你的邻居,然后推荐系统根据你邻居的喜好组成一个排序的目录列表作为推荐提供给你。
协同过滤
与基于内容过滤的不同
协同过滤的定义
我们弄清楚协同过滤是什么之后,再来讨论下协同过滤是怎么实现的。
获取用户的喜好数据是协同过滤算法的第一步,也是最基础的一步。
推荐系统的输入就是用户的喜好信息,所以不管你后面的推荐算法做的有多好,如果第一步没做好,那么最终得出的推荐效果也会很差。
其实,用户的所有行为都会被系统所记录,所以系统可以从用户的行为信息中抽取出用户的喜好信息。
显式的用户行为比如用户对内容的评分、投票和转发等
隐式的用户行为比如有在某个页面停留的时间,对某些物品的点击查看和购买行为等
典型的用户行为分为显式和隐式2类
那么,系统是怎么有效的获得用户的喜好信息呢?
减噪
归一化
其中最关键的两步就是减噪和归一化
过滤掉用户行为中的一些失误操作和数据中的噪音
手段
使得系统分析可以更加准确
目的
减噪的目的是为了过滤掉用户行为中的一些失误操作以及数据中的一些噪音,从而使得系统分析可以更加的准确
而归一化的原因在于,在度量用户对内容喜好程度时,需要对不同类型的用户数据进行统计。而有的数据取值范围很大,有的却很小,如果不进行归一化处理的话,这些数据将不具备可比性。因为大数值区间的数据属性权重会变得很大,而小数值区间的数据属性权重就会变得微乎其微。所以我们应该将这些数据都限制在同一个区间内,但又不能破坏不同数据之间的相对关系,最简单的归一化操作就是将所有数据都进行适当的缩放,使得他们的font color=\"#00ff00\
进行完以上的预处理操作后,系统可以选择不同的用户行为分析方法,最终得到一个反映用户对不同内容喜好程度的二维相似矩阵,矩阵里的值表示的是用户对不同内容的font color=\"#00ff00\
推荐系统收集完用户的行为信息后,还需要对这大量的数据信息进行数据清洗
首先是获取用户群体的喜好记录
推荐系统收集到用户的喜好记录后,会根据这些用户信息来计算2个用户之间的相似程度,然后对指定用户进行推荐。
基于用户的协同过滤
基于内容项的协同过滤
基于模型的协同过滤
用于推荐的协同过滤算法具体分为三类
https://baike.baidu.com/item/%E5%90%91%E9%87%8F/1396519?fr=aladdin
在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(magnitude)和方向的量。它可以形象化地表示为带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。与向量对应的量叫做数量(物理学中称标量),数量(或标量)只有大小,没有方向。
在物理学和工程学中,几何向量更常被称为矢量。许多物理量都是矢量,比如一个物体的位移,球撞向墙而对其施加的力等等。与之相对的是标量,即只有大小而没有方向的量。一些与向量有关的定义亦与物理概念有密切的联系,例如向量势对应于物理中的势能。
几何向量的概念在线性代数中经由抽象化,得到更一般的向量概念。此处向量定义为向量空间的元素,要注意这些抽象意义上的向量不一定以数对表示,大小和方向的概念亦不一定适用。因此,平日阅读时需按照语境来区分文中所说的\"向量\"是哪一种概念。不过,依然可以找出一个向量空间的基来设置坐标系,也可以透过选取恰当的定义,在向量空间上介定范数和内积,这允许我们把抽象意义上的向量类比为具体的几何向量。
什么是向量
扩展阅读
【基于行的用户相似程度】我们把上面得到的相似矩阵的每一行抽取出来,作为每个对应用户的行向量,而该行向量其实就是对应着该用户对所有内容的喜好程度。接着我们计算每2个行向量之间的相似度,其实就是在计算对应用户间的相似度评价值。【基于列的内容喜好程度】当然,也可以把用户-内容喜好的二维矩阵的每一列抽取出来,对应所有用户对该内容的喜好程度,然后再计算内容之间的相似度。【相似度算法】常用的相似度计算方法有①欧几里得距离,②余弦相似度以及③皮尔森相关系数。
欧几里得距离也叫欧式距离,是最常用,也是最简单的计算两个点之间距离的方法
欧几里得距离公式
欧几里得距离相似度公式
当n=2或者n=3时,也就是在二维或者三维空间中,两个点之间的欧氏距离其实就是它们的实际距离。两个点距离越小,表示它们的相似度越大,所以欧氏距离其实和相似度成反比关系,我们需要将欧氏距离取个倒数(分母加1是为了防止出现距离为0时的情况):
欧几里得相似度公式
欧几里得距离(Euclidean Distance)
https://51tools.info/textsimilarity/
:通过对两个文本分词,TF-IDF算法向量化,对比两者的余弦夹角,夹角越小相似度越高,但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大不适合大数据量的计算。
1)余弦定理
:算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。由于每篇文章我们都可以事先计算好Hamming Distance来保存,到时候直接通过Hamming Distance来计算,所以速度非常快适合大数据计算。但是SimHash对于短文本误判率比较高,因此建议大于500字以上的使用此算法。
2)SimHash
文本相似度
http://t.zoukankan.com/liangjf-p-8283519.html
NLP文本相似度(TF-IDF)
在生活中,信息检索、文档复制检测等领域都应用到“文本相似度”。
可能有人觉得文本是文字,其实不尽然,文本相似度的应用更广,除了文字的匹配,还可以是图片,音频等,因为他们的实质都是在计算机中都是以二进制的方式存在的。
以文本搜文本
以图搜图
以音频搜音频
以视频搜视频
1. 搜索引擎
2. 文献精准推送
论文作弊检测
3. 文献查重
4. 自动问答
5. 聊天机器人
举例来说
文本相似度的应用场景
余弦相似度主要用于计算文本之间的相似度,因为文档向量是比较稀疏的所以向量中很多值会等于0,表示该文档不具备某个词。又因为任意两个文档肯定不会包含太多相同的词,所以如果统计 0-0 匹配的话,那么很多文档都会与其他文档很相似(因为每个文档向量都有很多 0),这显然是不合理的。
而余弦相似度则可以满足文档相似性匹配的要求,因为它不仅能忽略 0-0 匹配,而且还能处理非二元向量。
余弦相似度公式
余弦相似度的具体公式如下:
https://www.cnblogs.com/qdhxhz/p/9484274.html
利用余弦相似度计算新闻相似度的实践
什么是余弦相似度?
余弦相似度(Cosine Similarity)
皮尔森相关系数是一种常用于度量2个变量间紧密关系程度的方法,取值范围在 -1 到 1 之间。
其中 -1 是完全负相关, 0是无关,1表示完全正相关,
font color=\"#00ff00\
皮尔森相关系数表达式如下:
什么是皮尔森相关系数
皮尔森相关系数(Pearson Correlation Coefficient)
相似度算法
然后找到与特定用户相类似的其他用户
不管是哪类协同过滤算法,都涉及到计算用户或者物品间的相似度,而计算相似度有几种比较经典的方法。
了解完相似度的计算后,我们就可以根据相似度进行推荐了。
K近邻原则(K-neighborhoods)
这样做有着明显的缺点,因为它不管实际距离为多少,都固定取 K 个邻居,这样可能导致的后果是那 K 个邻居可能有些与指定用户距离很远,但被迫被认为与指定用户喜好相似,从而影响系统的推荐精度。
这个问题对孤立点来说更为严重。
找到距离最近的K个邻居
原则
数据稠密
适用场景
数据稀疏,如对孤立点的推荐精度很差
不适用场景
缺点
基于阈值的邻居原则(Threshold-based neighborhoods)
示意图如下所示,它与 K 近邻原则有着很大的不同。
该原则给定距离 R,然后以指定用户为中心,距离 R 为半径画一个圆,落进该圆范围内的用户都认为是指定用户的邻居,而不管这些用户的具体个数有多少。
这样的好处在于,可以确保得到的邻居用户与指定用户的相似度不会相差很远。
基于阈值的邻居原则强调的是“宁缺毋滥”,它比 K 近邻原则效果要好,尤其是在数据稀疏的情况下。
宁缺毋滥
数据稀疏
给定距离R,以指定用户为中心,距离R伟半斤画一个圆,落进该圆的用户都认为是指定用户的邻居
方法
邻居与指定用户的相似度不会相差很远
优点
前面已经说过,推荐的关键步骤是要找出用户-内容的邻居,而挑选邻居的规则有两种:①、一是K近邻原则,②、二是基于阈值的邻居原则。
最后得出推荐预测
协同过滤主要由三个步骤,
协同过滤的实现
当得到指定用户或者内容的邻居后,我们就可以利用这些数据信息为用户进行详细的推荐了。
基于用户的协同过滤( User-based CF )是最早被提出来的算法。
是根据用户对不同内容的喜好程度找到他的邻居用户,然后将这些邻居喜欢的内容排序推荐给指定用户。
什么是基于用户的协同过滤(User-based CF)
首先利用相似矩阵的行向量,即代表每个用户对所有内容的喜好程度,来计算得出每个用户间的相似度。
然后根据相似性结果找到 K个最近的邻居用户(这里用的K近邻原则或者基于阈值的邻居原则)
再根据邻居的相似性程度对他们进行加权,利用权重和他们对内容的喜好程度,预测指定用户可能也会喜欢的内容
最终得出一个经过排序的内容列表作为该指定用户的推荐。
User-based CF的具体流程是什么
得出A和C对内容的喜好程度更接近
将用户A作为指定用户,根据他的用户行为,系统可以得出他对不同内容项的喜好程度,利用这些信息找到他的邻居。示例中用户C即为用户A的邻居用户,所以将用户C喜好的内容D推荐给用户A
基于用户的协同过滤 User-based CF
User-based CF的案例
基于用户的协同过滤算法适用于一些新闻、微博或者其他媒体的推荐系统,
因为对于这些推荐系统来说,内容项的数量是远远多于用户的数量,而且内容更新很快,
所以与计算内容项之间的相似性相比,我们计算用户之间的相似性可以大大的减少计算量。
User-based CF的适用场景是什么
基于用户的协同过滤( User-based CF )
基于内容的协同过滤,他与基于用户的协同过滤区别主要在于,他是通过计算内容项之间的相似性,而非计算用户间的相似性来得到指定用户的推荐列表。
注意,中间是得到内容与内容之间的关系,如经典的啤酒与尿布的故事
与基于用户的协同过滤的区别是什么??
什么是基于内容的协同过滤 Item-based CF
首先利用相似矩阵的列向量,即代表所有用户对内容项的喜好程度,来计算得到内容项之间的相似度。
然后利用指定用户的历史喜好信息,得到一个排序的相似内容列表作为推荐预测。
需要指定用户的历史喜好信息
划重点:
Item-based CF的具体流程是什么?
Fig 6也给出了一个示例
根据所有用户的喜好记录,喜欢内容B的用户大部分也喜欢内容D,也就是说内容B的邻居是内容D,而指定用户A喜欢内容B,所以根据基于内容项的协同过滤,我们可以预测用户A也应该会喜欢内容D
基于内容的协同过滤 Item-based CF
Item-based CF的案例
基于内容项的协同过滤适用于电子商务网站,如淘宝、京东。拼多多,当当等
因为这些网站的用户数量是海量的,而商品内容的数据相对比较稳定,因此计算内容项之间的相似性可以减少计算量,也不需要频繁的进行更新
Item-based CF的适用场景
基于内容项的协同过滤( Item-based CF )
Model-based CF是目前较为流行的协同过滤类型,她的思想和前面2个类型有较大的区别
什么是基于模型的协同过滤
基于用户的协同过滤和基于内容项的协同过滤都属于基于记忆的协同过滤算法(Memory-based CF)。。他们难以处理大量的数据集,所以不适用于一些对时效性要求高的应用。
基于记忆的协同过滤算法Memory-based CF
而基于模型的协同过滤可以胜任该任务,他可以利用用户和喜好内容间的历史数据,预测出用户和未知内容之间的喜好关系,最后找到喜好程度最高的内容推荐给指定用户。
基于模型的协同过滤主要利用了机器学习的方法,对样本的用户喜好数据进行建模,并将训练好的模型来预测未知得用户喜好数据,最终得出推荐
他的复杂度高,因为对模型进行训练和评估需要花费大量的时间和精力
基于模型的协同过滤算法Model-based CF
和基于用户的协同过滤和基于内容的协同过滤的区别是什么
基于记忆的协同过滤算法 Memory-based CF
模式
难以处理大量的数据集
不适用于对时效性要求高的应用
基于用户和喜好内容间的历史数据
预测用户和未知内容之间的喜好程度
采用机器学习,对样本历史用户喜好数据进行建模
可以预测出用户和未知内容的喜好程度
复杂度高,因为对模型进行训练和评估需要花费大量的时间和精力
基于模型的协同过滤( Model-based CF )
前面提到过,协同过滤算法分成三类
四、协同过滤的分类
基于协同过滤的推荐系统
0 条评论
回复 删除
下一页