数据分析师Level 1 Part 1
2020-12-01 14:47:15 1 举报
AI智能生成
数据分析师 Level 1 Part1
作者其他创作
大纲/内容
描述性统计分析
描述性统计分析
名义测量
次序测量
间距测量
比率测量
数据描述
分类变量
顺序变量
连续变量
连续变量——中心水平
众数
中位数
四分位数
这里的Q1称为下四分位数,Q3称为上四分位数,Q2就是中位数
连续变量——中心水平(算数平均数)
样本平均数
总体平均数
说明
连续变量——中心水平(加权平均数)
样本加权平均
总体加权平均<br>
说明
连续变量——中心水平(几何平均数)
适用于计算比率数据的平均,主要用于计算平均增长率
连续变量——离散程度
异众比率
标准差
当我们用样本方差去估计总体方差的时候,我们说是总体方差的无偏估计量
极差
四分位差
连续变量——偏度
偏度
连续变量——峰度
峰度
统计图形
条形图
盒须图
玫瑰图
假设检验
基本概念
假设检验的基本步骤(以两个总体均值的假设检验为例)
假设检验的两类错误
假设检验的基本思想
统计量的函数形式
z统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差已知,
一个总体,总体均值的假设检验,总体为非正态分布,总体方差未知,大样本
t统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差未知,小样本(通常指小于30)<br>
F统计量的函数形式
F检验统计量用于两个总体方差的检验
卡方 统计量的函数形式
检验统计量用于单总体的方差检验
利用P值进行检验
左侧检验的P值为检验统计量X小于样本统计值C得概率
P值的计算
单侧检验
(以右侧检验为例)P值为样本统计值X(将样本值代入检验统计量中的计算结果)右侧的面积(概率)
双侧检验
P值为样本统计值得绝对值右侧的面积的两倍
应用
两个独立样本t检验(小样本)
Levene检验
一元线性回归
相关关系
正线性相关
负线性相关
完全线性相关
非线性相关
估计标准误差与相关系数的关系
相关系数
相关系数
如果相关系数是根据变量的样本数据计算的,即为了推断总体,那么则称为样本相关系数
t 检验
原假设
检验统计量<br>
适用条件
散点图的特征
一元线性回归方程回归分析的概念和特点
最小二乘法
线性回归的基本过程<br>
最小二乘法公式
评价与检验
第一步:总平方和分解
说明
第二步:计算判定系数 R^2
说明
第三步:残差标准误
第四步:线性关系检验<br>
提出假设
计算检验的统计量
决策
线性回归模型的假设
数据分析概述
数据分析和数据挖掘的概念
数据分析
数据挖掘
数据科学的八个层次
大数据对传统小数据的扩展及其区别和联系
数据上:小数据重抽样,大数据重全体
方法上:小数据重实证,大数据重优化
目标上:小数据重解释,大数据重预测
数据分析目标的意义、过程及其本质
潜在客户-->响应客户-->既得客户-->流失客户<br>
数据挖掘方法论
CRISP-DM 方法论
业务理解、数据理解、数据准备、建模、模型评估和模型发布
SEMMA 方法论
数据挖掘过程的细化
探索、修改、建模、评估、抽样
数据分析中不同人员的角色与职责
抽样分布及参数估计
随机的基本概念
随机实验
随机事件
随机变量
设随机试验的样本空间 是定义在样本空间S上的单值实值函数,称X为随机变量
概率分布
正态分布的图像形式
抽样分布
中心极限定理
参数估计
点估计
区间估计
方差分析
方差分析
方差分析的基本原理
方差分析的基本假设
单因素方差分析
单因素反差分析的基本步骤
计算F统计量
第一步:变异分解
计算均方
计算检验统计量F
统计决策
机器学习概念
什么是机器学习
模型构建流程
第一步:获取数据
第二步:获取一个任务
第三步:根据数据和算法进行学习
数据清洗
数据预处理
特征工程
第四步:模型评估
模型效果
运算速度
可解释性
服务于业务
交叉验证
训练误差与测试误差
泛化能力
交叉验证的常用方法
k折交叉验证
模型评估
混淆矩阵<br>
模型整体效果:准确率
捕捉少数类的艺术:精确度,召回率和 F 1 score
机器学习的分类
有监督学习
无监督学习
半监督学习
强化学习
常用有监督学习算法
KNN算法
KNN——算法原理描述
决策树算法
决策树——算法原理概述
常用无监督学习算法
聚类算法
0 条评论
下一页