描述性统计:数值方法
2016-07-08 09:49:45 0 举报
AI智能生成
描述性统计是一种数值方法,用于分析和总结数据集的主要特征。它包括计算各种统计量,如均值、中位数、众数、标准差、方差等,以揭示数据的分布、集中趋势和离散程度。描述性统计可以帮助我们更好地理解数据,为进一步的数据分析和建模提供基础。通过绘制直方图、箱线图等图形,我们可以直观地展示数据的分布情况,从而更容易发现潜在的模式和异常值。总之,描述性统计是一种简洁而有效的工具,适用于各种领域的数据分析。
作者其他创作
大纲/内容
前言
样本统计量
用样本中的数据计算度量值
总体参数
总体中的数据计算得出
公司用的简单统计数
众数、平均值、中位数
位置的度量
均值
中位数
众数
百分位数(P104)
相当于正态分布的某个点,它排在百分之几
向上取整
四分位数
变异程度(离散程度)的度量
极差
最大值-最小值
四分位点内距
数据中间百分之五十的距离(去掉最大和最小的值)
方差
P113
到平均值点距离之和
标准差
方差的平方根
单位与原始数据相同
变异系数
标准差/均值*100
P115
相对位置的度量和异常值的检测
z-分数
P119
这个数和平均值有几个标准差,一般是三个标准差以内
切比雪夫定律
P120
经验法则
异常值检测
探索性数据分析
五数概括法
P125
箱形图
两变量间关系的度量
协方差
P134
只表示线性相关的方向,取值正无穷到负无穷。
也就是说,协方差为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。
注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。
相关系数
P135
不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。
也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。同时,相关系数的绝对值越接近1,线性关系越显著。
通常情况下,当相关系数的绝对值大于2/sqrt(N),N为样本点的数量时,我们认为线性关系是存在的。
协方差和相关系数的区别
.协方差与相关系数的关系
协方差的公式为
相关系数的公式为,其中Sx,Sy分别表示x和y的标准差。
由两者的相关关系,可以看出为什么相关系数比协方差多阐述了线性相关的程度:
原因在于协方差和大小和x,y的取值范围紧密相关,举个例子,x,y都取值[-1000,1000]或都取值[-0.001,0.001],这两者的协方差肯定呈现量级般的差异,但是都除以标准差后,相当于在同样的尺度上衡量问题,所以相关系数是有意义的,反映了线性相关的程度。
备注:其实也不一定必须得除以标准差,只要除的值等够度量数据的波动范围就可以了,标准差只是一种通俗惯例的选择。
加权平均值和使用分组数据
加权平均值(P140)
GPA的例子
分组数据(P142)
0 条评论
下一页