数据清洗过程
2016-09-28 13:27:51 0 举报
数据清洗是数据分析过程中的关键步骤,它涉及识别和纠正数据集中的不一致、错误或不完整的信息。这个过程包括删除重复项、填充缺失值、修复错误的数据格式和类型,以及处理异常值。通过这种方式,我们可以确保数据的质量和准确性,从而提高分析结果的可靠性。此外,数据清洗还可以帮助我们发现数据集中的潜在问题,例如数据收集过程中的错误或偏见。总的来说,数据清洗是一个必要的过程,它可以提高数据分析的效率和效果。
作者其他创作
大纲/内容
待判定
待治理
待治理清单:item_gov_task_detail
id: 主键IDbiz_id: 业务IDitem_id: 商品IDsku_id: skuIDgov_item: 治理项rmd_id: 推荐表IDcontent: 治理内容result: 治理结果uk: 唯一标示status: 执行状态batch_no: 诊断批次号start_time: 批次开始时间end_time: 批次结束时间submitted_time: 提交时间completed_time: 完成时间operator: 操作人operator_role: 操作人角色fail_reason: 失败原因
商品SKU维表:govern_item_sku
id:主键IDitem_id:商品IDsku_id:skuIDsku_property:属性feature:特征barcode:条形码is_online:是否在线
执行
执行中
Y
待采纳
打标执行
分工确认记录
标注完成
1:N
诊断
开始
一致判定
N
标注任务分工表:govern_item_label_task
id: 主键IDscene: 场景parent_id: 父任务IDlabel_perform_id: 标注执行表主键IDround: 回合数label_content: 标注内容status: 任务状态operator: 执行人start_time: 开始时间exprie_time: 过期时间
分工
商品维表:govern_item
id:主键IDbiz_id:业务IDitem_id:商品ID...:类目、品牌等is_online:是否在线is_delete:删除状态
治理平台
结束
推荐
N:N
判定完成
商品治理平台
判定中
治理推荐:item_gov_rmd_detail
id: 主键IDbiz_id: 业务IDitem_id: 商品IDsku_id: skuIDgov_item: 治理项,比如:标题、类目、属性等content: 诊断内容,大字段,json结构status: 采纳状态,待处理,采纳,忽略等source: 来源,智能推荐,规则诊断ds: 推荐日期
执行失败
治理完成
下一轮
治理清单分工:item_gov_task_division
id: 主键IDscene: 场景parent_id: 父任务IDtask_id: 执行表主键IDround: 回合数content: 确认内容status: 任务状态operator: 执行人start_time: 开始时间exprie_time: 过期时间
已取消
已忽略
1:1
决策
待处理任务清单
算法推荐
治理清单历史:item_gov_task_detail_history
id: 主键IDbiz_id: 业务IDitem_id: 商品IDsku_id: skuIDgov_item: 治理项rmd_id: 诊断结果表ID...:其他字段同执行明细表
标注推荐明细表:govern_item_label_rmd_detail
id: 主键IDscene: 场景item_id: 商品IDsku_id: skuIdlabel_type: 标注类型,值|关系rel_item_id: 关联商品IDrel_sku_id: 关联商品skuIdcontent: 推荐标注值source: 来源,算法推荐|人工推荐ds: 推荐日期
未生效
生成
治理失败
量化评分表:govern_item_score
id:主键IDbiz_id:业务IDitem_id:商品IDitem_score:商品分prop_score:属性分category_score:类目分title_score:标题分
人工确认
已完成
治理推荐记录
本轮结束
商品量化评分表:govern_item_score
已采纳
更新
初始化
待执行
执行成功
评估
治理中
标注对象执行明细表:govern_item_label_perform_detail
id: 主键IDscene: 场景item_id: 源对象IDsku_id: 目标对象IDlabel_type: 标注类型,值|关系content: 标注内容rel_item_id: 关联对象IDrel_sku_id: 子关联对象IDconfirm_type: 确认类型,直接确认|交叉确认source: 内容来源,算法推荐|人工推荐status: 标注状态,待分工、未确认、已确认和已删除operator: 标注人start_time: 标注生效时间end_time: 标注周期结束时间is_delete: 删除状态delete_reason: 删除原因extra_info: 额外信息
单人标注
0 条评论
下一页
为你推荐
查看更多