AI产品经理(3) AI产品需要了解的算法全景图
2023-04-26 19:06:28 3 举报
AI智能生成
登录查看完整内容
AI产品经理需要掌握的算法全景图包括:监督学习、无监督学习、强化学习、深度学习、自然语言处理、计算机视觉等。其中,监督学习是指通过已知的输入输出数据对模型进行训练,使其能够对新的输入数据进行预测;无监督学习是指通过未标记的数据来发现数据中的模式和结构;强化学习是指通过与环境的交互来学习如何做出最优决策;深度学习是一种特殊的机器学习方法,它使用多层神经网络来处理复杂的数据;自然语言处理是指让计算机理解和生成人类语言的技术;计算机视觉是指让计算机理解和处理图像和视频的技术。这些算法都是AI产品开发中不可或缺的组成部分。
作者其他创作
大纲/内容
分类问题经常出现在分类判断、标签预测、行为预测这些场景中。
分类判断,如文本分类、图像分类
行为预测,如点击率预估、推荐系统
标签预测、如商品标签、用户标签
应用场景
K近邻算法(KNN)
朴素贝叶斯(NaiveBayes,NB)
决策树(Decision Tree Model,DT)
随机森林(Random Forest,RF)
支持向量机(SVM)
常见算法
分类问题
聚类算法解决问题的核心思想就是“物以类聚,人以群分”
应用场景:用户分组、用户画像
层次聚类(Hierarchical Clustering)
原型聚类(K-means)
密度聚类(DBSCAN)
常用算法
离散性标签指的就是非连续的一个个单独的标签。
分类问题和聚类问题的差异分类问题需要根据已知的数据去学习,然后为新的数据进行预测,聚类分析直接在已有数据中发现联系。但它们还存在着一个共同点,那就是它们都输出的是 “0” 或 “1” 这种离散型的标签。
聚类问题
连续值预测,如预测价格、销量、库存...
一元线性回归
多元线性回归
回归问题
机器学习分类
机器学习
AI产品经理(3)AI产品需要的解机器学习的算法~
其原理可以简单描述为:对于一个新的输入样本,KNN算法会在训练数据集中找到与该样本最接近的K个样本(即“最近邻”),并将这K个样本中出现最多的类别作为新样本的类别(分类问题)或将这K个样本的平均值作为新样本的输出值(回归问题)。
“近朱者赤近墨者黑”,即基于距离的一个简单分类算法。在数据量不多,特征都相对单一的业务场景下很适合选择 KNN 算法。
对于一个待测的样本点,我们去参考周围最近的已知样本点的分类,如果周围最近的 K 个样本点属于第一类,我们就可以把这个待测样本点归于第一类。
KNN 的原理
KNN算法适用于小型数据集,对实时性要求不高,数据量较小的问题场景,是一种简单有效的分类和回归算法。
优点
KNN 对于数据的容错性很低,它在处理数据量比较大的样本时会非常耗时
缺点
电商网站为例,用户在访问商品详情页面时,系统会根据用户历史浏览和购买记录等信息,找到与该用户兴趣相似的一些用户,然后根据这些用户的购买记录,推荐与该用户兴趣相似的商品。这里的K近邻算法就是用于找到与当前用户兴趣相似的K个用户。通过分析这K个用户的购买记录,可以为当前用户推荐相关的商品。
应用案例
图像识别、文本分类、推荐系统、医学诊断、金融风险评估等
K近邻算法:
根据已有的数据去寻找一条直线,让它尽可能地接近这些数据,再用这条直线预测新数据的可能结果,这个结果是一个具体的数值。
根据原有数据通过线性回归方程 Y = AX + B,把已有数据代入到这个方程里,求出一组 A 和 B 的最优解,最终拟合出一条直线,然后通过每个数据到直线的距离最短,也就是损失函数最小。这样一来,我们就能通过这个最优化的 A 和 B 的值,估算出新的数据 X 和 Y 的关系,进行数据的预测。
原理
预测身高、预测销售额、预测房价、预测库存等等,但前提是这些场景中的数据是符合线性分布的。
简单易实现,运算效率高,可解释性很强
缺点是容易受到异常值的影响,对于非线性数据拟合效果较差。。
线性回归
逻辑回归是一种分类算法,解决的是分类问题,或者说,逻辑回归就是用来预测某个事情是“是或者否”这样的概率
在线性回归模型基础上,把原有预测的连续值转化成一个事件的概率,用来解决分类问题。在实际应用中,逻辑回归也可以在线性回归的基础上做进一步预测。
线性回归可以用来预测身高、销售额、房价、库存是多少,逻辑回归就可以预测身高是高了还是矮了,预测销售额提升了还是降低了,预测房价涨了还是跌了,预测库存够用还是不够用等等
预测广告点击率、商品点击率、商品推荐、股价预测、产品销量预测
简单易实现,运算效率高,可解释性很强,模型分布更集中,
对于非线性分布的预测结果不会很理想
KNN vs 道逻辑回归
逻辑回归
是事件 B 在另一个事件 A 已经发生条件下的概率,记作 P(B|A),在统计学中,也称之为似然函数。比如说,北京下雨后,发生道路堵车的概率。
条件概率
事件 A 或 事件 B 是根据经验来判断发生的概率,记作 P(A)、P(B)。比如说,今天我面试了某厂的员工,根据过去的经验这个公司来的员工都很优秀,所以我判断这个人大概率也很优秀。
先验概率
已经看到某个事情发生了,再判断这个事情发生原因的概率,即在事件已经发生后,推测原因比如:知道一个西瓜很甜,这个西瓜很甜的原因可能是土壤好,光照充分等等。这个时候,一个西瓜很甜是因为它的土壤非常好的概率,就是后验概率。
后验概率
当不知道这个事物实际情况的时候,我们可以根据一些相关的条件来判断这个事物的本质。
贝叶斯的原理就是根据先验概率和条件概率估算得到后验概率
贝叶斯
朴素贝叶斯就是在贝叶斯的原理上,加了一个前提假设:假设各个特征之间相互独立,通过计算特征对于分类的条件概率来进行分类
朴素贝叶斯
朴素贝叶斯更适用于文本分类、情感分析、垃圾邮件分类这类场景,朴素贝叶斯还会和协同过滤一起,使用到推荐系统中
预测航班是否可能延误,给用户提一个航班延误概率的提示,让用户自己做主是否有购买延误险。
就是各个条件之间相互独立,互不影响。这让它的使用非常有局限性,只有在条件比较少,并且相互独立的时候,朴素贝叶斯的效果才会比较好
基于信息增益(ID3算法):选择信息增益最大的特征作为根节点,信息增益越大,表示特征对分类的贡献越大。信息增益是衡量一个特征对分类带来的信息量的指标。选择信息增益最大的特征作为决策树的节点,意味着选择该特征能够使得分类结果的不确定性减少最多,从而使得决策树的分类效果更好。
基于增益比(C4.5算法):选择增益比最大的特征作为根节点,增益比可以解决信息增益偏向于取值数目较多的特征的问题。
基于基尼指数(CART算法):选择基尼指数最小的特征作为根节点,基尼指数越小,表示特征对分类的贡献越大。基尼指数是CART分类树算法中用于选择最优划分属性的指标之一。它衡量的是在某个属性上进行划分后,分类的不纯度或者说杂乱程度。
特征选择:从数据集中选择一个最优特征作为根节点,将数据集分为多个子集。
决策树生成:对每个子集递归地进行特征选择,生成子树。
预剪枝:在决策树生成过程中,设置一个阈值,当子树的样本量小于阈值时,将该子树对应的节点标记为叶子节点。
后剪枝:在决策树生成之后,判断每个子树是否可以被替换为一个叶子节点,如果替换后模型的泛化能力不降低,则将该子树对应的节点替换为叶子节点。
决策树剪枝:通过剪枝来避免过拟合,提高泛化能力。
基于树形结构的分类和回归算法,通过对数据集进行分裂,构建一棵决策树来进行分类或回归
决策树
具有树形结构所以决策树的可解释性强,直观好理解,而且我们还可以从结果向上去追溯原因。采用决策树,我们可以很方便地和领导、业务方、甲方去解释我们的模型是什么,以及有哪些因素影响了模型的结果
决策树优点
当数据量大,数据维度(样本具有的特征或者属性,如价格、位置)很多的时候,决策树会变得非常复杂,训练时间会很久
决策树缺点
银行客户信用评级。银行可以根据客户的特征(例如收入、财产、信用记录等)构建决策树,根据决策树分类结果将客户分为不同的信用等级,从而决定是否给予贷款或者贷款利率等。这种方法可以帮助银行降低风险,同时也可以为客户提供更好的贷款服务。
多棵决策树组成,随机指的是每一个决策树的样本是随机从数据集中采样得到的。假设, 模型由三个决策树 A、B、C 组成,我们给每棵决策树都随机抽取样本进行训练,由于这三棵树的训练样本不一样,因此它们最后得到的决策结果有可能不同。最后,我们再把这三棵树得到的结果做一个综合,就能得到最终的决策结果了
三个臭皮匠赛过一个诸葛亮,模型起点高、天花板低。
模型的随机性很强,不容易产生过拟合的情况,但正因为样本是随机的,所以模型对于样本数据的异常值也不太敏感
优缺点
随机森林
决策树和随机森林
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
AI产品经理(3)AI产品需要了解的算法全景图
0 条评论
回复 删除
下一页