AI 产品经理入门手册
2026-01-30 11:22:55 0 举报
AI智能生成
AI产品经理:AI 产品经理,是直接应用或间接涉及了 AI 技术,进而完成相关 AI 产品的设计、研发、推广、产品生命周期管理等工作的产品经理。 AI产品经理的能力模型:四大能力 AI应用领域:计算机视觉、语音交互、自然语言处理、同步定位与地图构建 AI技术:机器学习:监督学习、非监督学习、强化学习、迁移学习
作者其他创作
大纲/内容
AI 通识
AI 产业结构
(1)行业+AI
对产品经理的要求重点在对行业的理解上,以及
需要对行业趋势有一定的 insight
(2)AI+行业
需要产品经理具有较强的沟通能力,能快速挖
掘理解客户的真实需求,并对项目具有一定的把控管理能力。
(3)基础平台
司对产品经理的要求更侧重于对底层技术框架的理解。如果你曾经从事过研发工作,那么在该类公司工作会比较有优势。
AI 产品经理的分类
间接涉及了语义、语音、计算机视觉和机器学习这 4 个领域的 AI 技术、或直接应用了其他还不够成熟的细分领域 AI 技术(比如:脑机接口、量子计算等),进而完成相关 AI 产品的设计、研发、推广、产品生命周期管理等工作的产品经理。
分类
终端应用类产品经理(非狭义 AI):在前文提及的实体机器人、虚拟机器人、智能车载、
<br>智能家居、穿戴式设备、其他互联网产品形态等各种终端载体上,没有直接应用(但间接涉及了)语义、语音、计算机视觉和机器学习这 4 种 AI 技术的 PM。
策略类产品经理(非狭义 AI):在出行、推荐、大数据等领域,没有直接应用(但间接涉及了)机器学习技术的 PM<br>非成熟 AI 技术类:脑机接口、量子计算等。
AI 产品经理的能力模型
(1)找准商业变现模式和闭环
目前 AI 市场实现商业变现主要有两种方式:<br>一种是 AI 直接产出价值,通过 AI 来取代部分人力,提高生产效率并节省人力成本,例如智能客服系统等;<br>另一种则是 AI 赋能人类,为人类决策提供支持,例如 AI 在医疗领域的应用,辅助医生诊疗,AI 都是作为助手的角色来帮助人类。
目前商业化程度做的较好的行业有安防、金融、互联网服务、企业服务:<br>安防领域,在“雪亮工程”的政策推动下,针对人像数据、车辆数据的智能摄像机、后台分析系统等产品落地速度快。<br>在民用市场,人脸闸机成为民用市场的明星产品。<br>金融领域,智能风控和量化投资的技术应用商业化程度较高,作为“离钱最近”的行业,<br>金融业原本积累的海量数据,使得人工智能在金融领域快速落地。<br>互联网服务领域,以翻译、P 图、智能推荐、语音转写等服务为主,这些服务以智能手机为主要入口,与公众工作和生活的关系较紧密。<br>企业服务领域,智能营销和智能客服是两大主要落地的应用,前者重点基于人群大数据、通过数据挖掘技术实现精准营销,后者基于知识图谱和语音交互技术而正在被广泛应用于各行业。
(2)把控产品需求
AI 产品经理最核心的技能也在于此,即通过人工智能技术去重新定义场景和需求,提供一套可行的人工智能解决方案。在明确了具体的需求场景后,需要考虑清楚我们产品的客户会在当前流程里的哪个环节使用它,以及现有的方案是什么,我们的产品解决方案比现有方案好在哪里。AI
现阶段的行业通识是选准一个足够细分的垂直领域去构建商业和技术壁垒,而不是与谷歌或百度竞争通用 AI 技术。目前 to B 的场景主要从提升人工效率、降低人力成本、帮助决策的方向考虑,to C 的场景则更侧重于提高便利性。
(3)与技术互相推动,互相成就
在实际的产品设计的过程中,AI 产品经理必须理解技术实现过程,找到用户需求和 AI 技术的交叉点,设计的产品要和团队现有数据、算法、计算能力匹配。做到准确传达产品需求,帮助研发工程师快速实现产品目标,缩短研发工程师找到最佳技术方案的时间。并能使用非技术语言,将研发过程中的技术原理及出现的问题及时与 leader 和客户沟通,来获得支持和认可
(4)获取用户信任
AI 未来的发展方向可能更应该将更多的决策过程展示出来,让用户理解和明白为什么要做这样的决策,而不应该仅仅是一个黑盒。
AI 应用领域
计算机视觉(CV)
计算机视觉是一门研究如何使机器“看”的科学,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉的应用,是使用计算机及相关设备对生物视觉的一种模拟,对采集的图片或视频进行处理从而获得相应场景的三维信息,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力。
应用场景
计算机视觉的应用场景非常广,例如:无人驾驶、无人安防、人脸识别、光学字符识别、物体追踪、车辆车牌识别、以图搜图、医学图像分析等。
瓶颈
预知识设置会对图像识别结果产生极大影响
提供相关方案的企业
旷视 face++人工智能开放平台(提供人脸识别、人体识别、文字识别等技术方案) :<br>https://www.faceplusplus.com.cn/<br>商汤科技(提供人脸和人体分析、通用与专业图像分析、视频处理等技术以及提供智慧安防、智能终端、智能金融等解决方案):https://www.sensetime.com/core<br>腾讯优图 AI 开放平台(提供人脸及人体识别、图像识别、文字识别等技术及天眼安防、<br>天眼交通等解决方案):https://open.youtu.qq.com/#/open<br>百度 AI 开放平台(提供人脸及人体识别、图像识别、文字识别、图像审核等):<br>http://ai.baidu.com/tech/imagerecognition<br>阿里云(提供人脸识别、图像识别、图像搜索、视频识别等):<br>https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD<br>图普科技(提供图像内容审核、人脸和人体识别、文字识别、图像场景识别等技术方案):<br>https://www.tuputech.com/<br>格灵深瞳(人眼摄像机、视图大数据分析平台、人脸识别系统等):<br>http://www.deepglint.com/
语音交互
语音交互也是非常热门的方向之一,其实语音交互整个流程里包含语音识别、自然语言处理和语音合成。
(1)语音识别(ASR)
1)研究内容
语音识别的输入是声音,属于计算机无法直接处理的模拟信号,所以需要将声音转化成计算机能处理的文字信息。
传统方式的声学模型一般采用隐马尔可夫模型(HMM),处理流程是语音输入——编码(特征提取)——解码——输出。
还有一种“端到端”的识别方式,一般采用深度神经网络(DNN),这种方式的声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过<br>音素等底层元素,可以直接是字母或者汉字。在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果。<br>在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果。目前的语音识别技术主要是通过 DNN 实现的。语音识别的效果一般用“识别率”,即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量。目前中文通用语音连续识别的识别率最高可以达到 97%。
2)衍生研究内容
麦克风阵列:在家庭、会议室、户外、商场等各种环境下,语音识别会有噪音、混响、人声干扰、回声等各种问题。在这种需求背景下可以采用麦克风阵列来解决。麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统,可以实现语音增强、声源定位、去混响、声源信号提取/分离。麦克风阵列又分为:2 麦克风阵列、4 麦克风阵列、6 麦克风阵列、6+1 麦克风阵列。随着麦克风数量的增多,拾音的距离,噪声抑制,声源定位的角度,以及价格都会不同,所以要贴合实际应用场景来找到最佳方案。
远场语音识别:解决远场语音识别需要结合前后端共同完成。前端使用麦克风阵列硬件,解决噪声、混响、回声等带来的问题,后端则利用近场远场的声学规律不同构建适合远场环境的声学模型,前后端共同解决远场识别的问题。
语音唤醒:通过关键词唤醒语音设备,通常都是 3 个音节以上的关键词。例如:嘿 Siri、和亚马逊 echo 的 Alexa。语音唤醒基本是在本地进行的,必须在设备终端运行,不能切入<br>云平台。因为一个 7×24 小时监听的设备要保护用户隐私,只能做本地处理,而不能将音频流联网进行云端处理。 语音唤醒对唤醒响应时间、功耗、唤醒效果都有要求。
语音激活检测:判断外界是否有有效语音,在低信噪比的远场尤为重要。
(2)语音合成(TTS)
1)研究内容
是将文字转化为语音(朗读出来)的过程,目前有两种实现方法,分别是:拼接法和参数法。
拼接法是把事先录制的大量语音切碎成基本单元存储起来,再根据需要选取拼接而成。这种方法输出语音质量较高,但是数据库要求过大。<br>参数法是通过语音提取参数再转化为波形,从而输出语音。这种方法的数据库要求小,但是声音不可避免会有机械感。
DeepMind 早前发布了一个机器学习语音生成模型 WaveNet,直接生成原始音频波形,可以
对任意声音建模,不依赖任何发音理论模型,能够在文本转语音和常规的音频生成上得到
出色的结果。
2)瓶颈
个性化 TTS 数据需求量大,在用户预期比较高的时候难满足。需要 AI 产品经理选择用户预期不苛刻的场景,或者在设计时管理好用户预期
提供相关方案的企业
讯飞开放平台(提供语音识别、语音合成、语音扩展等技术方案及智能硬件以及多种行业解决方案):https://www.xfyun.cn/<br>图灵机器人(提供多场景的聊天机器人解决方案):http://www.tuling123.com/<br>腾讯 AI 开放平台(提供语音识别、语音合成等技术):https://ai.qq.com/<br>百度 AI 开放平台(提供语音识别、语音合成等技术):<br>http://ai.baidu.com/tech/speech<br>阿里云(提供语音识别、语音合成、录音文件识别等):<br>https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD<br>追一科技(提供智能外呼、及智能机器人在多行业的解决方案):https://zhuiyi.ai/
自然语言理解(NLP)
自然语言处理是一门让计算机理解、分析以及生成自然语言的学科,是理解和处理文字的过程,相当于人类的大脑。NLP 是目前 AI 发展的核心瓶颈。
应用场景
自然语言处理作为 CUI(Conversational User Interface,对话式交互)中非常重要的一部分,只要是 CUI 的应用场景都需要自然语言处理发挥作用。除此之外,机器翻译、文本分类也都是自然语言处理的重要应用领域。
瓶颈
词语实体边界界定
词义消歧
词义消歧包括多义词消歧和指代消歧
个性化识别
自然语言处理要面对个性化问题,自然语言常常会出现模凌两可的句子,而且同样一句话,不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决
提供相关方案的企业
讯飞开放平台(提供自然语言处理):https://www.xfyun.cn/
图灵机器人(提供多场景的聊天机器人解决方案):http://www.tuling123.com/
腾讯 AI 开放平台(提供基础文本解析、语义分析等技术):
https://open.youtu.qq.com/#/open
百度 AI 开放平台(提供语言处理基础技术、文本审核、机器翻译等):
http://ai.baidu.com/tech/nlp
阿里云(提供情感分析、实体识别、机器翻译等):
https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
追一科技(提供智能外呼、及智能机器人在多行业的解决方案):https://zhuiyi.ai/
及时定位与地图构建(SLAM)
Simultaneous Localization and Mapping
同步定位与地图构建,是机器人 / 无人系统在未知环境中,通过传感器实时感知环境,同时完成自身位置姿态估计和周围环境地图创建的核心技术,被称为机器人的 “眼睛和大脑”,核心解决 **“我在哪?”和“周围是什么样?”** 两个问题。
SLAM 是无先验地图的自主导航技术,区别于传统 “有地图再定位” 的模式,定位和建图同步进行、相互约束—— 用感知到的环境特征修正位置误差,用估计的位置优化地图精度,形成闭环。
SLAM 的主流技术路线
激光 SLAM
以激光雷达为核心,通过点云配准实现定位和建图,技术成熟、鲁棒性强,是工业落地的首选。
核心原理:将激光雷达采集的连续帧点云进行匹配,计算位姿变化;通过回环检测消除累积误差,最终构建稠密 / 稀疏点云地图。
经典算法:GMapping(2D 入门)、Cartographer(谷歌,2D/3D,适合大场景)、LOAM(3D 激光 SLAM 经典,分特征提取和配准)、LeGO-LOAM(轻量化 LOAM,适合无人机 / 小车)。
适用场景:室内 AGV、无人叉车、园区无人车、地下车库导航(光照变化小、环境结构化强)。
视觉 SLAM(VSLAM)
以相机为核心,通过视觉特征匹配实现定位建图,成本低、信息丰富,适合消费级和轻量化场景。
核心原理:提取图像中的特征点(如 ORB、SIFT),匹配连续帧特征点计算相机运动;结合三角化恢复三维结构,构建视觉地图。
经典分支:
单目 SLAM:仅一个相机,成本最低,但无绝对尺度(需通过运动估计尺度),代表算法 ORB-SLAM3(目前最成熟,支持单目 / 双目 / RGB-D/IMU 融合);
双目 SLAM:两个相机模拟人眼,通过视差计算深度,有绝对尺度,代表算法 Stereo-SLAM;
RGB-D SLAM:相机 + 深度传感器(如 Kinect),直接获取深度,建图效率高,适合室内小场景。
适用场景:扫地机器人、AR/VR(如手机 AR 导航)、小型无人机、室内服务机器人。
多传感器融合 SLAM
激光 + 视觉 + IMU是目前的工业级主流方案,取长补短:
激光雷达提供高精度距离和结构化环境信息;
视觉相机提供纹理、语义信息(如识别行人、路标),弥补激光的语义缺失;
IMU 提供高频率的运动信息,在激光 / 视觉被遮挡时(如隧道、拐角)实现短时间定位,抑制误差累积。
代表方案:无人车的 Apollo SLAM、机器人的 Nav2 融合 SLAM。
SLAM 的核心技术流程
无论哪种技术路线,SLAM 的核心流程基本一致,可概括为5 个关键步骤,核心是消除误差累积:
数据采集与预处理:传感器采集原始数据(激光点云、图像、IMU 数据),进行去噪、标定(传感器内外参标定,消除系统误差)、时间同步(多传感器数据对齐);
前端里程计(Frontend):匹配连续帧的环境特征,计算机器人的相对位姿(短时间内的运动估计),生成初步的轨迹和局部地图,存在误差累积;
后端优化(Backend):将前端的位姿和特征作为约束,构建优化问题(如基于图优化、卡尔曼滤波),全局优化位姿轨迹,修正累积误差,保证全局一致性;<br>
回环检测(Loop Closure):检测机器人是否回到曾经访问过的位置,若检测到回环,添加回环约束到后端优化,是消除长期累积误差的关键;
地图构建与更新:根据优化后的位姿,将传感器数据融合,构建全局一致的地图,并根据环境变化动态更新地图(如动态 SLAM)。
SLAM 的地图表示形式
栅格地图
特点:将环境划分为栅格,标记“占用/空闲/未知”<br>
优点:直观、适合路径规划
缺点:内存占用大、分辨率受限
适用场景:2D室内机器人(如扫地机器人)
点云地图
特点:由大量三维点组成,保留环境几何信息<br>
优点:精度高、结构化强
缺点:数据量大、无语义信息<br>
适用场景:3D导航、环境重建、无人车
拓扑地图
特点:以“节点(位置)+边(路径)”表示,抽象环境<br>
优点:精度高、结构化强
缺点:依赖先验特征、精度低<br>
适用场景:大场景导航(如园区、城市)<br>
语义地图<br>
特点:在几何地图基础上添加语义信息(如“桌子”“门”“走廊”)
优点:智能性高、支持人机交互
缺点:计算复杂、依赖视觉识别
适用场景:服务机器人、AR/VR、无人车高阶导航<br>
SLAM的典型应用场景
SLAM是所有自主移动系统的核心技术,落地于机器人、无人系统、AR/VR等多个领域:<br>1. 服务机器人:扫地机器人、室内配送机器人、酒店服务机器人(2D激光/视觉SLAM);<br>2. 工业机器人:AGV无人叉车、仓储搬运机器人、工业巡检机器人(2D/3D激光SLAM);<br>3. 无人系统:园区无人车、无人配送车、无人机(多传感器融合SLAM);<br>4. AR/VR:手机AR导航、VR空间定位、全息投影(视觉SLAM);<br>5. 其他领域:自动驾驶(高阶定位)、地下车库导航、消防机器人、水下机器人(水下SLAM)。
SLAM的发展趋势
1. 多传感器深度融合:激光+视觉+IMU+GPS+毫米波雷达,实现全场景、高鲁棒性定位;<br>2. 语义SLAM:结合深度学习(目标检测、语义分割),构建语义地图,提升机器人的环境理解能力;<br>3. 动态SLAM:通过深度学习检测和剔除动态物体,解决动态环境下的定位飘移问题;<br>4. 轻量化与端侧部署:将SLAM算法移植到嵌入式设备(如Jetson、RK3588),降低硬件成本;<br>5. 协同SLAM:多机器人协同建图和定位,适合大场景(如园区、城市);<br>6. SLAM与路径规划/避障融合:实现“定位-建图-规划-避障”一体化,提升机器人的自主导航能力。
AI 技术
机器学习
概念:投喂给机器训练数据,机器从这些数据中找出一个能够良好拟合已有数据的函数,新数据来了后,就可以通过这个函数预测对应结果。
适合解决的问题:有规律可以学习、编程很难做到、有能够学习到规律的数据
工作方式:<br>根据任务目标确定算法;<br>在预处理阶段把数据分成三组:训练数据(用来训练模型)、验证数据(开发过程中用于调参)、 测试数据(测试用);<br>用训练数据来构建使用相关特征的模型;<br>把验证数据接入模型调参;<br>用测试数据检查被验证的模型的表现;<br>用完全训练好的模型在新数据上做预测;<br>用更多数据或选取不同特征以及利用调整过的参数来提升优化算法的性能表现。
分类:按学习方式可以分为监督学习(包括半监督学习)、无监督学习、强化学习、迁移学习。
监督学习
概念:机器学习的一种,通过学习许多有标签的样本,得到特征值和标记值之间的对应规律,然后对新的数据做出预测。
分类:根据输入数据 x 预测出输出数据 y,如果 y 是整数的类别编号,则称为分类问题,<br>算法包括:决策树、随机森林、贝叶斯、KNN、SVM、逻辑回归。<br>如果 y 是实数值,则为回归问题,算法包括决策树、随机森林、KNN、SVM、线性回归。
主流算法
1)决策树算法
基本原理:决策树是一个树结构,每个非叶节点表示一个特征属性,每个分支代表这个特征属性在某值域上的输出,每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达某个叶节点,该叶节点存放的类别即为决策结果。
决策树是一种判别模型,既支持分类问题,也支持回归问题,是一种非线性模型(分段线性函数不是线性的),它天然的支持多分类问题。决策树的构建由机器训练得到,而不是人工制定。
决策树的关键步骤是分裂属性,即在某个节点处按照某一特征属性的不同划分构造不同的分支,尽量让一个分裂子集中待分类项属于同一类别。而根据判断方法的不同所以产生了ID3 算法,C4.5 算法以及 CART 算法
优劣势:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估,非常容易解释,但容易趋于过拟合。
2)随机森林
基本原理:由决策树与集成学习算法相结合生成,由多棵决策树组成。用多棵决策树联合预测可以提高模型的精度,这些决策树用对训练样本集随机抽样构造出的样本集训练得到。由于训练样本集由随机抽样构造,因此称为随机森林。
随机森林不仅对训练样本进行抽样,还对特征向量的分量随机抽样,在训练决策树时,每次分裂时只使用一部分抽样的特征分量作为候选特征进行分裂。随机森林是一种判别模型,既支持分类问题,也支持回归问题,并且支持多分类问题,这是一种非线性模型。<br>
主要用途:用户流失分析、风险评估。
优劣势:随机森林对大规模数据集和存在大量且有时不相关特征的项来说很有用,且有很好的解释性。它比使用单个模型预测出来的结果要精确的多,但同时也需要大量的维护工作。
3)朴素贝叶斯
Naive Bayesian Classifier
基本原理:是在已知样本的特征向量为 x 的条件下反推样本所属的类别 y,即对于给出的待分类项,求解在此待分类项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。
简单的举个例子:我们看到一个人高鼻深目金发碧眼,便可以推断他属于白种人,因为在这种外貌特征下他是白种人的概率最高。贝叶斯可以处理多分类问题,是一种非线性模型。
主要用途:文本处理里的垃圾邮件过滤、情感分析、消费者分类、拼写纠正、文字广告过滤、识别恶性评论等领域。
优劣势:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类,且很统一被解释。所需估计的参数不大,对缺失数据不太敏感,而且无需复杂的迭代求解框架,适用于规模巨大的数据集。但是对输入数据的形式比较敏感、计算先验概率时分类决策可能存在错误。如果输入变量是相关的,则会出现问题。
4)k 近邻(KNN)
基本原理:把标注好类别的训练样本映射到选取的特征数维度的坐标系里,然后再把测试样本映射到这个坐标系里,选取距离该测试样本最近的 k 个训练样本,其中哪个训练样本类别占比最大,就可以认为该类别就是这个测试样本的类别。<br>
kNN 算法是一种判别模型,即支持分类问题,也支持回归问题,是一种非线性模型。它天然的支持多分类问题。kNN 算法没有训练过程,是一种基于实例的算法。<br><br>
主要用途:适用 kNN 可以处理数值型(从无限的数值集合中取值,如:0.100,42.001 等)和标称型(只在有限目标集中取值,如:真与假)数据。一种特征对应一个维度,一种特<br>征下的数据可以数值型的也可以是标称型的。
优劣势:这种算法思想简单,理论成熟,准确度高。但是会占用大量内存,因为需要存储所有的训练样本点,而且每个新测试样本需要通过 kNN 算法分类,都要计算这个测试样本<br>与所有训练样本点的距离。
5)线性回归
基本原理:主要用于拟合数据趋势。简而言之,就是尽量用一条线或平面或超平面来拟合已有的一组数据。确定自变量和因变量间的相互依赖的定量关系。简单的线性回归一般使用“最小二乘法”来求解,最小二乘的思想就是使得求解的这条线或平面或超平面使所有误差的平方和最小。<br>
主要用途:适用于数值型和标称型数据。
优劣势:结果易于理解,计算不复杂,但是只能用于拟合线性数据,非线性数据拟合效果很差。
6)逻辑回归
基本原理:逻辑回归只是对线性回归的计算结果加了 Sigmoid 函数进行处理,将数值结果转化为了 0 到 1 之间的概率,根据这个概率可以做预测。logistic 回归是一种判别模型,它是一种线性模型,用于二分类问题。
主要用途:路面交通流量分析、邮件过滤,
优劣势:实现简单,分类时计算量非常小,速度很快,存储资源低,但是容易欠拟合。
7)支持向量机(SVM)
基本原理:支持向量机的目标是寻找一个分类超平面,它不仅能正确的分类每一个样本,并且要使得每一类样本中距离超平面最近的样本到超平面的距离尽可能远。SVM 是一种判别模型,它既可以用于分类问题,也可以用于回归问题。标准的 SVM 只能支持二分类问题,使用多个分类器的组合,可以解决多分类问题。
主要用途:新闻分类、手写识别。
优劣势:擅长在变量 x 和其他变量之间进行二元分类操作,无论其关系是否为线性的。可以捕获数据之间更复杂的关系,而无需人为地进行困难的数据转换。但同时它的训练时间长得多,因为计算量更大,而且可解释性也比较差。
非监督学习
概念:机器学习的一种,训练样本中所有样本数据都不含标记值的学习方式,目的是将样本集划分成多个类,保证同一类的样本之间尽量相似,不同类的样本之间尽量不同。没有训练过程,直接对样本进行划分。<br>
分类:聚类和降维。
主流算法
1)k 均值(k-means)<br>基本原理:将观测值分为 k 个聚类,随机初始化每个类的类中心,然后计算样本与每个类的中心的距离,将其分配到最近的那个类,然后根据这种分配方案重新计算每个类的中心。这也是一种分阶段优化的策略。
2)主成分分析(PCA)<br>基本原理:PCA 是一种数据降维和去除相关性的方法,它通过线性变换将向量投影到低维空间,对向量进行投影就是让向量左乘一个矩阵得到结果向量。降维要确保的是在低维空间中的投影能很好的近似表达原始向量,即重构误差最小化。PCA 是一种无监督的学习算法,它是线性模型,不能直接用于分类和回归问题。
半监督学习
训练样本中只有部分样本数据包含标记值的学习方式,当没有足够人力标记所有的样本数据,并且稍稍降低对模型预测精度的要求时,便可以使用半监督学习。相比无监督学习会有较高的精度,相比有监督学习可以大幅降低人工标记成本。
例如:在拥有上百万篇文章资讯类的网站中进行文章分类标记,便可以采用半监督学习,只需要对训练样本进行少量的人工标注处理,便可以得到较高精度的分类结果。
强化学习
强化学习是一种特殊的机器学习,根据输入环境参数确定要执行的动作,通过与环境交互来优化目标函数。在训练时,对于正确的动作做出奖励,对错误的动作做出惩罚,训练完成之后就用得到的模型进行预测。简要来说,强化学习算法是一种根据当前的状态确定要执行的动作的学习方式。
迁移学习
迁移学习简要来说,就是把已经学到训练好的模型参数迁移到新的模型来帮助并加快新模型训练数据集,这种学习方式可以大幅缩短新模型的学习时间
深度学习
深度学习是机器学习的子集,这个概念来源于对人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度机器学习方法也有监督学习与无监督学习之分,不同的学习框架下建立的学习模型很是不同。例如:卷积神经网络(Convolutional neural networks,简称 CNNs)就是一种<br>深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称 DBNs)就是一种无监督学习下的机器学习模型。
深度学习相较其他机器学习最厉害的一点:可以对数据特征进行预处理(省去数据人工标注的麻烦,同时可以对更多维和复杂的特征进行向量提取和空间向量的转换,方便后续处理),这也是它为什么很多层的原因,因为其中多出来的层数都是要用来进行数据特征提取预处理的。端到端的训练,是深度学习的核心技术。目前深度学习框架有 tensorflow、keras、caffe、theano、torch 等
1)卷积神经网络(CNN)<br>
基本原理:CNN 是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层组成。卷积层的作用是指对图片的矩阵进行卷积运算,得到一些数值,作为图片的某些特征。因为采用了卷积来处理图像,所以需要使用激活函数来加入非线性因素,来增加表达力。
池化层的作用是对上层的数据进行采样和压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征。全连接层连接所有的特征,将输出值分类。<br>
前面卷积层和池化层进行处理后,得到了很多的特征,全连接层使用这些特征进行分类。比如:识别数字,那就对 0~9 的十个类别进行分类。卷积神经网络是一个判别模型,它既可以用于分类问题,也可以用于回归问题,并且支持多分类问题。主要用途:图像处理,计算机视觉和图像分类的主要算法。
2)递归神经网络(RNN)
基本原理:又叫循环神经网络,在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。递归神经网络会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。当输入数据具有依赖性且是序列模式时,RNN 对之前发生在数据序列中的事是有一定记忆的,这有助于系统获取上下文。
递归神经网络是一个判别模型,既支持分类问题,也支持回归问题,并且支持多分类问题。<br>主要用途:语言建模、文本生成、机器翻译、语音识别、生成图像描述。
基于 RNN 还衍生出了 LSTM(Long-Short-Term-Memerory)和 GRU(Gated Recurrent Unit)
等一系列算法,这些算法拥有记住过去的能力,所以可以用来处理一些有时间序列属性的数据,在处理语言、文字等方面有独到的优势。
LSTM 和 GRU 的优点是具备与其它递归神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用。
0 条评论
下一页
为你推荐
查看更多