AI产品养成(2) 如何转AI产品? AI模型设计、 训练、部署
2023-04-26 19:03:53 1 举报
AI智能生成
登录查看完整内容
AI产品养成(2) 如何转AI产品? AI模型设计、 训练、部署
作者其他创作
大纲/内容
目前这种情况并不多见,但随着越来越多的公司认识到 AI 的重要性,并且建立了算法团队,这种情况就会变得很普遍
内部转岗
行业专有名词、基本术语
行业的整体规模,未来的发展空间
整个行业的生命周期,当前处于哪个阶段
行业的产业链,上下游供应商情况
行业中不同企业的商业模式
行业整体的人才结构分布情况
当前行业中头尾部企业
对 AI 行业有全局的认识,持续了解 AI 发展
基础层
技术层
应用层
给自己定方向
补足技术
总结、输出、实践。
外部求职
爱分析 、AI 前线、成为 AI 产品经理机器之心、大数据文摘
公号
艾瑞、发现报告
行业报告
36氪、虎嗅
新闻网站
平台 :腾讯云 网易 极客时间
课程 :李宏毅的《Machine Learning》 吴恩达的《机器学习》课程
课程
李航的《统计学习方法》
周志华的《机器学习》
BOOK
学习渠道
AI产品经理转行+学习渠道
数据准备
技术预研
产品需求定义
迭代改进
研发上线
模型验收
模型构建
AI 产品经理工作流程
需要明确业务问题,并确定模型应解决的问题
比如:进行用户流失预测,预测用户什么时间节点流失然后进行对应的挽回
不同的目标变量,决定了这个模型应用的场景,以及能达到的业务预期。
确定业务问题和目标
需要可靠而且数量足够的数据,确保数据质量和数据安全性,并进行数据清洗和预处理。
数据收集样本选取
模型设计
从样本数据中提取可以很好描述数据的特征,再利用它们建立出对未知数据有优秀预测能力的模型
原始数据并不直接适用于机器学习算法,因为原始数据存在噪声、缺失值等问题,这会影响算法的性能和准确度。因此,特征工程的目的是通过对原始数据的加工处理,使数据更适合机器学习算法的使用。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
处理缺失值、异常值、重复值等问题。
数据清洗
从原始数据中抽取出有用的特征。例如,从文本数据中提取出关键词或短语,从图像数据中提取出颜色、形状等特征。
直接从数仓中获取,为更多地提取特征,先提取主体特征,再提取其他维度特征
数值型特征
把标签转化为特征,用0、1来表示每个特征值
标签数据
对文本数据做清洗和挖掘,挖掘出在一定程度上反映用户属性的特征。
描述型数据
利用通讯录、收货地址、LBS位置信息、商品的分享和助力活动等等的数据,挖掘出一个社交关系网络,把这个网络中的信息作为我们特征提取的参考
网络关系数据
4 类常见特征
特征提取
对提取出的特征进行转换,以使其更适合机器学习算法的使用。例如,对非数值型的特征进行数值化处理,进行归一化或标准化等操作。
选择对模型训练有用的特征,以减少无用特征对模型的影响。
特征转换选择
把数据分成训练集和测试集,使用训练集来进行模型训练,使用测试集验证模型效果
训练/测试集
建立特征工程的流程
举例:一个人的年龄、学历、工资、信用卡个数等等一系列特征,来表示这个人的信用状况,这就是建立了这个人信用状况的特征工程
特性工程
模型训练是通过不断训练、验证和调优,让模型达到最优的一个过程
将数据集划分为训练集和测试集,并将数据转换为模型接受的格式
准备数据
设计模型的结构,包括模型的输入、输出、网络结构、激活函数、损失函数等。
定义模型结构
将训练数据集输入模型中进行训练,采用梯度下降等优化算法来更新模型参数,以找到能够最佳参数组合。
训练模型
使用测试数据集来评估训练出的模型的性能表现。常常使用如准确率、精确率、召回率、F1值等指标来评估模型的性能表现
模型评估
调整模型的超参数,如正则化系数、学习率等,以优化模型的表现。可以使用交叉验证等方法来选择最佳的超参数组合。
调参优化
模型训练流程
模型训练
将多个不同的模型组合起来,以获得更好的预测性能或准确度。:
简单平均法(Simple Average):将多个模型的预测结果进行简单平均,得到最终的预测结果。适用于多个模型预测结果差异较小的情况
权重平均法(Weighted Average):将多个模型的预测结果进行加权平均,得到最终的预测结果。适用于不同模型预测结果差异较大的情况。
投票法(Voting):将多个模型的预测结果进行投票,以得到最终的预测结果,适用于多个模型的预测结果差异不大的情况。
堆叠法(Stacking):将多个模型的预测结果作为输入训练一个元模型,从而得到最终的预测结果,适用于多个模型的预测结果差异较大的情况。
装袋法(Bagging):通过将训练数据随机分成多个子集进行训练,从而得到多个模型,最后将多个模型组合得到最终预测结果,常用的装袋法包括随机森林
模型融合类型
模型融合类型在不同场景和任务中都有其独特的优点和适用性。在选择模型融合方法时,需要根据具体情况进行综合考虑和选择
模型融合
模型训练完成并通过评估后,算法工程师就要考虑怎么把它部署到线上,并应用到业务场景中
将机器学习模型包装成可调用的Web API,通过HTTP协议提供服务。客户端可以通过HTTP请求将数据发送到API,并获得模型的预测结果。
简单的机器学习模型一般通过 Flask 来实现模型的部署,深度学习模型一般会选 TensorFlow Serving 来实现模型部署。
Flask是一个轻量级的Python Web框架,适用于快速开发Web应用程序和API。Flask可以用来部署机器学习模型,实现基于HTTP请求和响应的模型预测服务。
TensorFlow是一个由Google开发的开源机器学习框架,它能够自动地构建和训练各种机器学习模型,并提供了丰富的API接口和工具,使得机器学习应用变得更加简单和高效。
API部署常用的部署方式还有其他部署方式比如:容器化部署云端部署、本地部署
部署方式
模型部署
如何进行AI 模型的构建
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
AI产品养成(2)如何转AI产品?AI模型设计、训练、部署
0 条评论
回复 删除
下一页