6个阶段(PHASE)
商业理解(Business Understanding) <br>
本阶段专注于从行业角度理解项目目标和需求,并转化为数据挖掘的问题定义,同时设计一个初始计划。
初始计划
确定业务目标
评估商业环境
确定数据挖掘目标
提出项目计划
数据理解(Data Understanding) <br>
本阶段先收集初步的数据,然后了解并熟悉数据,以识别数据质量、找到对数据的基本观察或假设隐含的信息以检测出感兴趣的数据子集
具体包括
收集原始数据
描述数据
探索数据
检查数据质量
数据准备(Data Preparation) <br>
本阶段包括从数据构造到最终数据集合(将要输入建模工具的数据)的所有活动。数据准备任务可能需要执行很多次,并没有任何规定的顺序
具体包括
数据选择
数据清洗<br>
数据创建
数据合并
数据格式化
建模(Modeling) <br>
本阶段可以选择各种建模技术,各类模型参数也可以调整优化。对同一个数据挖掘问题有多种可用技术,某些技术对数据的形式有一定的要求,因此常常要退回到数据准备阶段
评估(Evaluation) <br>
在最终扩展模型前要彻底地评价模型,对所建模型再次考察其执行步骤并确信其正确地达到了商业目标。一个关键目的是确定是否有某些重要的商业问题还没有充分地考虑到
部署(Deployment)
所获得的挖掘结果和知识应采用用户可以使用的方式组织和表示。可简单到一份报告,也可以实现一个可以重复的挖掘过程或系统。多数情况下,这将由用户而非分析员实施
具体包括
部署计划
监控和维护计划
做出最终报告
项目回顾