AI产品经理(3) AI产品需要了解的算法全景图
2023-04-26 19:06:28 3 举报
AI智能生成
AI产品经理需要掌握的算法全景图包括:监督学习、无监督学习、强化学习、深度学习、自然语言处理、计算机视觉等。其中,监督学习是指通过已知的输入输出数据对模型进行训练,使其能够对新的输入数据进行预测;无监督学习是指通过未标记的数据来发现数据中的模式和结构;强化学习是指通过与环境的交互来学习如何做出最优决策;深度学习是一种特殊的机器学习方法,它使用多层神经网络来处理复杂的数据;自然语言处理是指让计算机理解和生成人类语言的技术;计算机视觉是指让计算机理解和处理图像和视频的技术。这些算法都是AI产品开发中不可或缺的组成部分。
作者其他创作
大纲/内容
AI产品经理(3)<br>AI产品需要的<br>解机器学习的算法~<br>
机器学习分类
分类问题
分类问题经常出现在分类判断、<br>标签预测、行为预测这些场景中。<br>
应用场景
分类判断,如文本分类、图像分类
行为预测,如点击率预估、推荐系统
标签预测、如商品标签、用户标签
常见算法
K近邻算法(KNN)<br>
朴素贝叶斯(NaiveBayes,NB)
决策树(Decision Tree Model,DT)
随机森林(Random Forest,RF)
支持向量机(SVM)
聚类问题
聚类算法解决问题的核心思想就是<br>“物以类聚,人以群分”<br>
应用场景:用户分组、用户画像
常用算法
层次聚类(Hierarchical Clustering)
原型聚类(K-means)
密度聚类(DBSCAN)
分类问题和聚类问题的差异<br><font color="#ff0d00"><br>分类问题需要根据已知的数据去学习,<br>然后为新的数据进行预测,</font><br><br><font color="#ff0d00">聚类分析直接在已有数据中发现联系。</font><br>但它们还存在着一个共同点,<br>那就是它们都输出的是 “0” 或 “1” <br>这种离散型的标签。<br>
<font color="#ff0d00">离散性标签</font><br>指的就是<br>非连续的一个个单独的标签。<br>
回归问题
应用场景
连续值预测,如预测价格、销量、库存...
常用算法
一元线性回归<br>
多元线性回归
机器学习
K近邻算法:<br>
KNN 的原理<br>
其原理可以简单描述为:对于一个新的输入样本,<br>KNN算法会在训练数据集中找到与该样本最接近的K个样本(即“最近邻”),<br>并将这K个样本中出现最多的类别作为新样本的类别(分类问题)<br>或将这K个样本的平均值作为新样本的输出值(回归问题)。<br>
<font color="#ff0d00">“近朱者赤近墨者黑”,<br>即基于距离的一个简单分类算法。<br>在数据量不多,特征都相对单一的业务场景下<br>很适合选择 KNN 算法。</font><br>
对于一个待测的样本点,<br>我们去参考周围最近的已知样本点的分类,<br>如果周围最近的 K 个样本点属于第一类,<br>我们就可以把这个待测样本点归于第一类。<br>
优点
KNN算法适用于小型数据集,对实时性要求不高,<br>数据量较小的问题场景,是一种简单有效的分类和回归算法。<br>
缺点
KNN 对于数据的容错性很低,它在处理数据量比较大的样本时会非常耗时
应用案例
电商网站为例,用户在访问商品详情页面时,<br>系统会根据用户历史浏览和购买记录等信息,<br>找到与该用户兴趣相似的一些用户,然后根据这些用户的购买记录,<br>推荐与该用户兴趣相似的商品。<br>这里的K近邻算法就是用于找到与当前用户兴趣相似的K个用户。<br>通过分析这K个用户的购买记录,可以为当前用户推荐相关的商品。<br>
应用场景
图像识别、文本分类、推荐系统、医学诊断、金融风险评估等
线性回归
原理
<font color="#ff0d00">根据已有的数据去寻找一条直线,<br>让它尽可能地接近这些数据,<br>再用这条直线预测新数据的可能结果,<br>这个结果是一个具体的数值。</font><br>
<font color="#ff0d00">根据原有数据通过线性回归方程 Y = AX + B,<br>把已有数据代入到这个方程里,求出一组 A 和 B 的最优解,<br>最终拟合出一条直线,然后通过每个数据到直线的距离最短,<br>也就是损失函数最小。</font><br>这样一来,我们就能通过这个最优化的 A 和 B 的值,<br>估算出新的数据 X 和 Y 的关系,进行数据的预测。<br>
应用场景
预测身高、预测销售额、预测房价、预测库存等等,<br>但前提是这些场景中的数据是符合线性分布的。<br>
优点
简单易实现,运算效率高,可解释性很强
缺点
缺点是容易受到异常值的影响,对于非线性数据拟合效果较差。。
逻辑回归
原理
<b><font color="#ff0d00">逻辑回归是一种分类算法,解决的是分类问题,<br>或者说,逻辑回归就是用来预测某个事情是<br>“是或者否”这样的概率</font></b><br>
在线性回归模型基础上,<br>把原有预测的连续值转化成一个事件的概率,<br>用来解决分类问题。在实际应用中,<br>逻辑回归也可以在线性回归的基础上做进一步预测。<br>
<font color="#ff0d00">线性回归可以用来预测身高、销售额、房价、库存是多少,<br>逻辑回归就可以预测身高是高了还是矮了,预测销售额提升了还是降低了,<br>预测房价涨了还是跌了,预测库存够用还是不够用等等</font><br>
应用场景
预测广告点击率、商品点击率、商品推荐、股价预测、产品销量预测
优点
简单易实现,运算效率高,可解释性很强,模型分布更集中,
缺点
对于非线性分布的预测结果不会很理想
KNN vs 道逻辑回归
朴素<br>贝叶斯<br>
贝叶斯
当不知道这个事物<br>实际情况的时候,<br>我们可以根据一些相关的条件<br>来判断这个事物的本质。<br><br>
条件概率
是事件 B 在另一个事件 A 已经发生条件下的概率,<br>记作 P(B|A),在统计学中,也称之为似然函数。<br>比如说,北京下雨后,发生道路堵车的概率。<br>
先验概率
事件 A 或 事件 B 是根据经验来判断发生的概率,<br>记作 P(A)、P(B)。比如说,今天我面试了某厂的员工,<br>根据过去的经验这个公司来的员工都很优秀,<br>所以我判断这个人大概率也很优秀。<br>
后验概率
已经看到某个事情发生了,再判断这个事情发生原因的概率,<br>即在事件已经发生后,推测原因<br><br>比如:知道一个西瓜很甜,这个西瓜很甜的原因可能是土壤好,<br>光照充分等等。这个时候,一个西瓜很甜是因为它的土壤<br>非常好的概率,就是后验概率。<br>
朴素<br>贝叶斯<br>
朴素贝叶斯就是在贝叶斯的原理上,<br>加了一个前提假设:<br>假设各个特征之间相互独立,<br>通过计算特征对于分类的<br>条件概率来进行分类<br>
应用场景
朴素贝叶斯更适用于文本分类、情感分析、垃圾邮件分类这类场景,<br>朴素贝叶斯还会和协同过滤一起,使用到推荐系统中<br>
应用案例
预测航班是否可能延误,给用户提一个航班延误概率的提示,<br>让用户自己做主是否有购买延误险。<br>
缺点
就是各个条件之间相互独立,互不影响。这让它的使用非常有局限性,<br>只有在条件比较少,并且相互独立的时候,朴素贝叶斯的效果才会比较好<br>
决策树和<br>随机森林<br>
决策树
<font color="#ff0d00">基于树形结构的<br>分类和回归算法,<br>通过对数据集进行分裂,<br>构建一棵决策树<br>来进行分类或回归</font><br>
<b><font color="#ff0d00">特征选择:</font></b><br>从数据集中选择一个<br>最优特征作为根节点,<br>将数据集分为多个子集。<br>
<font color="#ff0d00">基于信息增益(ID3算法):</font><br>选择<font color="#ff0d00">信息增益最大</font>的特征作为根节点,信息增益越大,<br>表示特征对分类的贡献越大。<br><br><font color="#ff0d00">信息增益是衡量一个特征对分类带来的信息量的指标。</font><br>选择信息增益最大的特征作为决策树的节点,<br>意味着选择该特征能够使得分类结果的不确定性减少最多,<br>从而使得决策树的分类效果更好。<br>
基于增益比(C4.5算法):<br>选择<font color="#ff0d00">增益比</font>最大的特征作为根节点,<br>增益比可以解决信息增益偏向<br>于取值数目较多的特征的问题。<br><br><br>
基于基尼指数(CART算法):<br>选择<font color="#ff0d00">基尼指数</font>最小的特征作为根节点,<br>基尼指数越小,<br>表示特征对分类的贡献越大。<br><br>基尼指数是CART分类树算法中<br>用于选择最优划分属性的指标之一。<br><font color="#ff0d00">它衡量的是在某个属性上进行划分后,<br>分类的不纯度或者说杂乱程度</font>。<br>
<b><font color="#ff0d00">决策树生成:</font></b><br>对每个子集递归地进行特征选择,<br>生成子树。<br>
<font color="#ff0d00">决策树剪枝:</font><br>通过剪枝来避免过拟合,<br>提高泛化能力。<br>
<font color="#ff0d00">预剪枝:<br></font>在决策树生成过程中,<br>设置一个阈值,当子树的样本量小于阈值时,<br>将该子树对应的节点标记为叶子节点。<br>
<font color="#ff0d00">后剪枝:<br></font>在决策树生成之后,判断每个子树是否可以被替换为一个叶子节点,<br>如果替换后模型的泛化能力不降低,则将该子树对应的节点替换为叶子节点。<br>
决策树优点<br>
具有树形结构所以决策树的可解释性强,直观好理解,<br>而且我们还可以从结果向上去追溯原因。采用决策树,<br>我们可以很方便地和领导、业务方、甲方去解释我们的模型是什么,<br>以及有哪些因素影响了模型的结果<br>
决策树缺点
当数据量大,数据维度(样本具有的特征或者属性,如价格、位置)很多的时候,<br>决策树会变得非常复杂,训练时间会很久<br>
应用案例
<font color="#ff0d00">银行客户信用评级。<br>银行可以根据客户的特征(例如收入、财产、信用记录等)构建决策树,<br>根据决策树分类结果将客户分为不同的信用等级,<br>从而决定是否给予贷款或者贷款利率等。<br>这种方法可以帮助银行降低风险,<br>同时也可以为客户提供更好的贷款服务。</font><br>
随机<br>森林<br>
原理
<b><font color="#ff0d00">多棵决策树组成,</font></b><br>随机指的是每一个决策树的样本<br>是随机从数据集中采样得到的。<br>假设, 模型由三个决策树 A、B、C 组成,<br>我们给每棵决策树都随机抽取样本进行训练,<br>由于这三棵树的训练样本不一样,<br>因此它们最后得到的决策结果有可能不同。<br>最后,我们再把这三棵树得到的结果做一个综合,<br>就能得到最终的决策结果了<br>
<font color="#ff0d00">三个臭皮匠赛过一个诸葛亮,<br>模型起点高、天花板低</font>。<br>
优缺点
模型的随机性很强,<br>不容易产生过拟合的情况,<br>但正因为样本是随机的,<br>所以模型对于样本数据的异常值也不太敏感<br>
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
0 条评论
下一页