AI产品养成(2) 如何转AI产品? AI模型设计、 训练、部署
2023-04-26 19:03:53 2 举报
AI智能生成
AI产品养成(2) 如何转AI产品? AI模型设计、 训练、部署
作者其他创作
大纲/内容
AI产品经理<br>转行+<br>学习渠道<br>
内部转岗
目前这种情况并不多见,<br>但随着越来越多的公司认识到 AI 的重要性,<br>并且建立了算法团队,<br>这种情况就会变得很普遍<br>
外部求职
对 AI 行业有全局的认识,<br>持续了解 AI 发展<br>
行业专有名词、基本术语
行业的整体规模,未来的发展空间
整个行业的生命周期,当前处于哪个阶段
行业的产业链,上下游供应商情况
行业中不同企业的商业模式
行业整体的人才结构分布情况
当前行业中头尾部企业
给自己定方向
基础层
技术层
应用层
补足技术
总结、输出、实践。
学习渠道
公号
爱分析 、AI 前线、成为 AI 产品经理<br>机器之心、大数据文摘<br>
行业报告
艾瑞、发现报告
新闻网站
36氪、虎嗅
课程
平台 :腾讯云 网易 极客时间
课程 :李宏毅的《Machine Learning》<br> 吴恩达的《机器学习》课程<br>
BOOK
李航的《统计学习方法》
周志华的《机器学习》
AI 产品经理<br>工作流程<br>
产品需求定义
技术预研
数据准备
模型构建
模型验收
研发上线
迭代改进
如何进行<br>AI 模型的<br>构建<br>
模型设计
<font color="#ff0d00">确定业务问题和目标</font>
<font color="#ff0d00">需要明确业务问题,<br>并确定模型应解决的问题</font><br>
比如:进行用户流失预测,<br>预测用户什么时间节点流失<br>然后进行对应的挽回<br>
不同的目标变量,<br>决定了这个模型应用的场景,<br>以及能达到的业务预期。<br>
数据收集样本选取
<font color="#ff0d00">需要可靠而且数量足够的数据,<br>确保数据质量和数据安全性,<br>并进行数据清洗和预处理。</font><br>
特性工程
<font color="#ff0d00">从样本数据中提取可以很好描述数据的特征,</font><br>再利用它们建立出对未知数据有优秀预测能力的模型<br>
原始数据并不直接适用于机器学习算法,<br>因为原始数据存在噪声、缺失值等问题,<br>这会影响算法的性能和准确度。<br>因此,特征工程的目的是通过对原始数据的加工处理,<br>使数据更适合机器学习算法的使用。<br>
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
建立<br>特征工程的<br>流程<br>
数据清洗
处理缺失值、异常值、重复值等问题。<br>
特征<br>提取<br>
从原始数据中抽取出有用的特征。<br>例如,从文本数据中提取出关键词或短语,<br>从图像数据中提取出颜色、形状等特征。<br>
<font color="#ff0d00">4 类<br>常见<br>特征</font><br>
数值型特征
直接从数仓中获取,为更多地提取特征,<br>先提取主体特征,再提取其他维度特征<br>
标签数据
把标签转化为特征,用0、1来表示每个特征值<br>
描述型数据
对文本数据做清洗和挖掘,<br>挖掘出在一定程度上反映用户属性的特征。<br>
网络关系数据
利用通讯录、收货地址、LBS位置信息、<br>商品的分享和助力活动等等的数据,<br>挖掘出一个社交关系网络,<br>把这个网络中的信息作为我们特征提取的参考<br>
特征转换选择
对提取出的特征进行转换,<br>以使其更适合机器学习算法的使用。<br>例如,对非数值型的特征进行数值化处理,<br>进行归一化或标准化等操作。<br>
选择对模型训练有用的特征,<br>以减少无用特征对模型的影响。<br>
训练/测试集
把数据分成训练集和测试集,<br>使用训练集来进行模型训练,<br>使用测试集验证模型效果<br>
举例:<br>一个人的年龄、学历、工资、信用卡个数等等一系列特征,<br>来表示这个人的信用状况,<br>这就是建立了这个人信用状况的特征工程<br>
模型训练
模型训练是通过不断训练、验证和调优,让模型达到最优的一个过程
模型<br>训练<br>流程<br>
准备数据
将数据集划分为训练集和测试集,<br>并将数据转换为模型接受的格式<br>
定义模型结构
设计模型的结构,包括模型的输入、<br>输出、网络结构、激活函数、损失函数等。<br>
训练模型<br>
将训练数据集输入模型中进行训练,采用梯度下降等优化算法<br>来更新模型参数,以找到能够最佳参数组合。
模型评估<br>
使用测试数据集来评估训练出的模型的性能表现。<br>常常使用如准确率、精确率、召回率、F1值等指标来评估模型的性能表现
调参优化<br>
调整模型的超参数,如正则化系数、学习率等,以优化模型的表现。<br>可以使用交叉验证等方法来选择最佳的超参数组合。
模型融合
将多个不同的模型组合起来,<br>以获得更好的预测性能或准确度。:<br><br>
模型融合类型
简单平均法(Simple Average):<br>将多个模型的预测结果进行简单平均,得到最终的预测结果。<br>适用于多个模型预测结果差异较小的情况<br>
权重平均法(Weighted Average):<br>将多个模型的预测结果进行加权平均,<br>得到最终的预测结果。<br>适用于不同模型预测结果差异较大的情况。<br>
投票法(Voting):<br>将多个模型的预测结果进行投票,<br>以得到最终的预测结果,<br>适用于多个模型的预测结果差异不大的情况。<br><br>
堆叠法(Stacking):<br>将多个模型的预测结果作为输入训练一个元模型,<br>从而得到最终的预测结果,<br>适用于多个模型的预测结果差异较大的情况。<br>
装袋法(Bagging):<br>通过将训练数据随机分成多个子集进行训练,<br>从而得到多个模型,最后将多个模型组合得到最终预测结果,<br>常用的装袋法包括随机森林<br>
模型部署
模型训练完成并通过评估后,<br>算法工程师就要考虑怎么把它部署到线上,并应用到业务场景中<br>
部署方式
API部署<br>常用的部署方式<br>还有其他部署方式<br><br>比如:容器化部署<br>云端部署、本地部署<br>
将机器学习模型包装成可调用的Web API,<br>通过HTTP协议提供服务。<br>客户端可以通过HTTP请求将数据发送到API,<br>并获得模型的预测结果。
简单的机器学习模型一般通过 Flask 来实现模型的部署,<br>深度学习模型一般会选 TensorFlow Serving 来实现模型部署。<br>
<font color="#ff0d00">Flask是一个轻量级的Python Web框架</font>,<br>适用于快速开发Web应用程序和API。<br>Flask可以用来部署机器学习模型,<br>实现基于HTTP请求和响应的模型预测服务。<br>
<font color="#ff0d00">TensorFlow</font>是一个由Google开发的开源机器学习框架,<br>它能够自动地构建和训练各种机器学习模型,<br>并提供了丰富的API接口和工具,<br>使得机器学习应用变得更加简单和高效。<br>
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
0 条评论
下一页