统计学知识点梳理
2022-07-08 18:31:16 2 举报
AI智能生成
登录查看完整内容
系统的梳理统计学第七版知识点,包含公式和题目,非常适合机器学习初学者复习统计学的知识点
作者其他创作
大纲/内容
估计量:用来估计总体参数的统计量。样本均值、样本比例、样本方差都可以称为估计量
估计值:根据一个具体样本计算出来的估计量的数值。
估计量与估计值
常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计
区间估计示意图
假设打靶100次,每次打靶前都预估一个置信区间(即可能打多少环),构造100个置信区间,这100个中有95个包含了真值,那么置信水平就是95%
置信水平:也称为置信度和置信系数。
区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论
当样本量给定时,置信区间的宽度随置信系数的增大而增大;当置信水平固定时,置信区间宽度随样本量的增大而减小
参数估计的定义与典型例题
外框
点估计与区间估计
无偏性
有效性
一致性
评价估计量的标准
参数估计的基本原理
点估计和区间估计例题汇总
参数估计例题汇总
判断是大样本(n30)还是小样本(n<30)
采用z分布
正态总体、方差已知或非正态总体,大样本
采用t分布
正态总体、方差未知、小样本
例题解析
总体均值的区间估计
z分布
总体比例的区间估计详解
总体比例的区间估计
卡方分布
总体方差的区间估计
一个总体参数的区间估计及案例
一个总体参数的区间估计
不论方差是否已知,统一用z分布
大样本的估计
方差已知,用z分布
方差未知但相等,用t分布
题目
解析
小样本的估计
两个总体均值之差的估计:独立样本
t分布
匹配样本:一个样本中每个数据值与另一个样本的对应数据值相匹配的样本
两个总体均值之差的估计:匹配样本
两个总体均值之差的区间估计
独立大样本,用z分布
两个总体比例之差的区间估计
F分布
两个总体方差比的区间估计
两个总体参数的区间估计
计算公式
估计总体均值时样本量的确定
估计总体比例时样本量的确定
样本量的确定
两个总体参数的估计及使用的分布
计算公式总结
7. 参数估计
假设问题的提出
假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立
假设检验的定义
假设检验中,原假设与备择假设只有一个成立且必有一个成立
注意:等于号一般放在原假设中
假设的定义及表达式
又称显著性水平
弃真错误(第一类错误)
纳伪错误(第二类错误)
两类错误
假设检验步骤
拒绝域
若H0是等于号,则为双侧检验;若H0是大于等于或者小于等于号,则为单侧检验
根据统计量判断结果,若求出的统计量大于统计量,则拒绝原假设,否则不拒绝原假设
双侧检验
左单侧检验
右单侧检验
单侧检验
假设检验相关
假设检验的基本问题
检验统计量的确定
样本量大
样本量小,总体标准差已知
样本量小,总体标准差未知
总体均值的检验
总体比例的检验
总体方差的检验
一个总体参数的检验
两方差都已知
两方差未知n较小
两个总体均值之差的检验
检验两总体比例相等的例题
检验两个总体比例之差不为零的例题
两个总体比例之差的检验
两个总体方差比的检验
检验中的匹配样本
两个总体参数的检验
网上例题汇总
8. 假设检验
分类数据
卡方统计量
卡方检验的定义和应用场景
卡方检验
分类数据与卡方检验
如何理解拟合优度检验
拟合优度检验
拟合优度检验适用于一个分类变量,列联分析是检验两个或以上的分类变量之间是否有相关关系
是由两个或以上的变量进行交叉分类的频数分布表
各变量都有两个或以上的类别
列联表
第一步 提出假设H0:患肺癌与吸烟没有关系。(目标结论H1“患肺癌与吸烟有关系”的反面)
第二步 计算独立性检验的标准,即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值。(它越小,原假设H0成立的可能性越大;它越大,目标结论H1成立的可能性越大。)
第三步 由独立性检验的临界值表得出结论及其可信度(即在多大程度上适用)。
检验步骤(以患肺癌和吸烟的关系为例)
独立性检验-百度百科
独立性检验
列联分析:独立性检验
基于SPSS的列联分析
φ=0,相互独立;φ=1,完全相关
适用2*2列联表
φ相关系数
主要用于大于2*2的列联表
c=0,表示两个变量相互独立,φ=1,完全相关
c相关系数
鉴于φ相关系数无上限,c相关系数小于1,可采用v相关系数
当列联表中有一维为2,则v值=φ值
V相关系数(Gramerx相关系数)
列联表中的相关测量
一般来说,列联表中变量的位置是任意的,如果X与Y存在因果关系,则令X为自变量(原因),放在列的位置,令Y为因变量,放在行。
条件百分表的方向
该表共6个单元,只有1个单元的期望频数小于5,可以用卡方检验
该表共7个单元,有3个单元的期望频数小于5,超过20%,不能用卡方检验
卡方分布的期望值准则
列联分析中应注意的问题
分类数据分析相关
9. 分类数据分析
因素:方差分析的研究变量;例如,研究裁判打分的差异,裁判就被称为因素
水平:因素中的内容称为水平;例如,总共有3个裁判打分,则裁判因素的水平就是3
因子或因素,水平或处理
例题
名词解释
适用场景:在研究一个(或多个)分类自变量与一个数值型因变量之间的关系时。方差分析的实质是比较3个总体及以上均值是否相等
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
图形描述:图中折线是由均值连接而成,从散点图看,不同行业被投诉的次数是有明显差异的
根据上述案例,同一行业的不同企业之间被投诉的次数也不同,由于企业是随机抽取,它们之间的差异可能是由随机因素的差异导致的,或者说是由抽样的随机性导致的随机误差,因此这类来自水平内部的数据误差被称为组内误差,且组内误差只含有随机误差
组内误差(SSE)
不同行业之间的观测值也不相同,来自不同水平之间的数据误差被称为组间误差,此类差异可能是随机性的,也可能是由行业本身的系统性因素造成的系统误差,所以组间误差是随机误差和系统误差的总和
组间误差(SSA)
SST=SSE+SSA
误差分解(总误差SST)
方差分析的基本思路和原理
1.每个总体都应服从正态分布
2.各总体的方差必须相同
3.观测值需要是独立的
方差分析中的基本假定
问题的一般提法
方差分析导论
提出假设
计算个样本的均值
计算全部观测值的总均值
计算各误差平方和
构造检验的统计量
将统计量的值F与给定的显著性水平的临界值进行比较,从而作出对原假设的决策
若F_\\alpha\" contenteditable=\"false\
若span class=\"equation-text\" data-index=\"0\" data-equation=\"Fspan class=\"equation-text\" data-index=\"1\" data-equation=\"F_\\alpha\" contenteditable=\"false\
统计决策
方差分析表相关
方差分析表
分析步骤
只要组间平方和(组间SSA)不等于零,就表明两个变量之间有关系(只是是否显著的问题)。
当组间平方和比组内平方和大,且大到一定程度时,就以为这两个变量之间的关系显著。大得越多,表明他们之间的关系就越强。
反之,当组间平方和比组内平方和小时,就意味着两个变量之间的关系不显著,小得越多,表明他们之间的关系就越弱。
关系强度的表示
关系强度的测量
多重比较的好处和种类
方差分析中的多重比较
单因素方差分析的相关概念及案例
单因素方差分析
无交互作用的双因素方差分析
有交互作用的双因素方差分析
双因素方差分析原理及例题解析
双因素方差分析
方差分析相关PPT
10. 方差分析(ANOVA)
相关与回归分析主要研究数值型自变量与数值型因变量之间的关系
研究是否有线性关系
如:某种商品的销售额y与销售量x之间的关系可表示为y = px(p为单价)
如:圆的面积S与半径R之间的关系可表示为
一一对应的确定关系
函数关系
变量之间不确定的数量关系称为相关关系
按程度分类
按方向分类
按形式分类
按变量数目分类
相关关系的类别
特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个
大体上能看出变量之间的关系形态和关系强度
散点图
是否存在关系存在什么关系
范围在font color=\"#ff0000\
r的取值范围
r有对称性
r的数值大小与xy的原点及尺度无关
r仅描述线性关系强弱,不描述非线性关系
r可以判断两个变量之间的线性关系不一定意味着xy有因果关系
线性相关系数,又称为pearson相关系数
相关系数计算公式
构建t统计量
相关系数显著性检验
考察样本相关系数的可靠性(显著性检验)
样本所反映的关系能否代表总体变量之间的关系
相关关系的描述与测度
相关关系
变量间的关系
用数学表达式通过最小二乘法处理样本数据得出必要参数,进行总体回归方程的拟合,最后用一个数学表达式表示两变量之间的关系最终目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。
一元线性回归模型的基本形式
得出估计的回归方程
通过两参数最小二乘估计表达式计算得到两参数和β
最小二乘估计
最小二乘法
建立模型
计算判定系数进行度量
排除x对y的线性影响之后,y随机波动大小的度量
实际意义:反映了用估计的回归方程预测因变量y时预测误差的大小
估计的标准误差
考察回归直线的拟合优度
span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\
方程线性关系的显著程度
线性关系的检验——F检验
检测自变量对因变量的影响是否显著
一元回归中t检验可与F检验相等
回归系数的检验——t检验
显著性检验
假设检验的方法
(1)所估计的回归系数的符号是否与理论或者事先预期相一致
(2)如果理论上认为y与x之间的关系不仅是整的,而且统计上显著,那么所建立的回归方程也应如此
(3)能够解释因变量y取值的差异
(4)需要考察误差项的正态性假设是否成立
回归分析结果的评价
一元回归的相关知识
一元回归分析
回归模型经过检验并符合要求之后就可以进行预测,用方程来预测因变量
点估计
y的平均值的置信区间估计
y的个别值的预测区间估计
区间估计
回归模型的预测
利用回归方程进行预测
进行残差分析的必要性,来源于建立回归模型时,预先假定ε是期望值为0、方差相等且服从正态分布的一个随机变量但如果假定不成立,那么所做的检验与预测可能站不住脚,而确定ε是否成立的方法之一就是进行残差分析
残差反映了用估计的回归方程去预测而引起的误差
残差图中的所有点都应落在一条水平带中间
残差与残差图
是残差除以它的标准差后得到的数值,也称为Pearson残差或半学生化残差
如果误差项服从正态分布,那标准化残差的分布也应服从正态分布,因此,大约有95%的标准化残差在-2~2之间
标准化残差
残差分析
11. 相关分析与一元线性回归
一个因变量与两个及两个以上自变量的回归
用样本统计量span class=\"equation-text\" data-index=\"0\" data-equation=\"\\hat{\\beta_0}\" contenteditable=\"false\
估计的多元回归方程
最小二乘
参数的最小二乘估计
多元线性回归模型
SST为因变量离差总平方和,SSR为回归平方和,SSE为残差平方和
因变量比离差平方和:SST=SSR+SSE
多重判定系数是多元回归中的回归平方和占总平方和的比例
可以用它来度量多元回归方程的拟合程度,反映了在因变量y的变差中被估计的回归方程所解释的比例
多重判定系数
注意:自变量个数的增加会影响隐变量中被估计的回归方程所揭示的变差数量
当增加自变量时,会使预测误差变得较小,从而减少残差平方和SSE
当模型中增加一个不显著的自变量,会变大,为避免增加自变量而高估,采用样本量n和自变量个数k调整
多元线性回归的拟合优度一般以调整R方为主
调整的多重判定系数
估计标准误差
回归方程的拟合优度
计算统计量
若F_\\alpha\
若span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\"F,接受原假设
作出决策
线性关系检验
回归系数检验和推断
定义:当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性
1.数据不足。在某些情况下,收集更多数据可以解决共线性问题。
2.错误地使用虚拟变量。(比如,同时将男、女两个虚拟变量都放入模型,此时必定出现共线性,称为完全共线性)
产生原因
(1)如果模型中各对自变量之间显著相关
(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著
(3)回归系数的正负号与预期的相反
(4)容忍度与方差扩大因子(VIF)容忍度为1-span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\"R_i^2\
多重共线性的判别
将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关
避免根据t统计量对单个参数进行检验
对因变量y值的推断(估计和预测)限定在自变量样本值的范围内
如果要在模型中保留所有自变量
多重共线性问题的处理
多重共线性相关
多重共线性
若新变量引入模型后以前的某个变量的t统计量不显著,这个变量就会被从模型中剔除
如果增加一个自变量使残差平方和(SSE)显著减少,则说明有必要将这个自变量引入回归模型
变量选择过程
变量由少变多
通过F值筛选变量,直至F值不再变大
向前选择
变量由多变少
通过F值筛选变量,直至F值通过检验
向后剔除
逐步回归的思想是有进有出
具体做法是将变量一个一个引入,每引入一个变量,要对已选入的变量进行检验,当原引入的变量由于后引入的变量变得不再显著时,要剔除变量
逐步回归是每次只引入或剔除一个变量,所以对n<p的情形也可进行回归子集的选择
逐步回归
最优子集
变量选择方法
变量选择的方法
变量选择
多元回归相关知识
12. 多元线性回归
定义:时间序列是同一现象在不同时间上的相继观察值排列而成的系列
时间序列中的时间可以是年份、季度、月份或者其他任何时间形式
基本上不存在趋势的序列
平稳序列
包含趋势、季节性或周期性的序列,可能只含有其中一种成分或几种成分
非平稳序列
时间序列类型
有趋势的序列
时间序列在长时期内呈现出来的某种持续上升或者持续下降的变动,也称为长期趋势
时间序列中的趋势可以是线性的也可以是非线性的
趋势(T)
又称为季节变动,是时间序列在一年内重复出现的周期性波动
季节性(S)
是时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式变动,周期性是涨落相间的交替波动
循环波动无固定规律,变动周期多在一年以上,且周期长短不一
周期性(C)
也称不规则波动,是时间序列中除去趋势、周期性和季节性之后的偶然性波动,
随机性(I)
时间序列可分为加法模型、乘法模型等多种模型
时间序列及其分解
在对时间序列进行分析时,最好先做一个图形,通过图形观察数据随时变化的模式及趋势
图形描述
增长率是对现象在不同时间的变化状况所做的描述
对比的基期不同,增长率会有不同的计算方法
指报告期观察值与前一时期观察值之比减1
环比增长率
指报告期观察值与某一固定时期观察值之比减1
定基增长率
增长率
增长率分析
时间序列的描述性分析
方法1:从时序图入手,观察是否存在趋势,以及所存在的趋势是线性还是非线性
方法2:利用回归分析拟合一条趋势线,对回归系数进行显著性检验,若回归系数显著,则可以证明线性趋势显著
确定趋势成分
注意点:至少需要两年的数据,而且数据需要按照季度、月份、周或者天等来记录
可以使用年度折叠时间序列图,将每年的数据分开画在图上,横轴只有一年的长度,每年数据分别对应纵轴
如果序列只存在季节成分,那图中折线将会有交叉;如果既有季节成分又有趋势,那折线将不会有交叉
如果趋势上升,则后面年度的折线将会高于前面年度的折线,,如果趋势下降,则相反
还可以使用自相关分析,观察一个时期的数值是否与前一时期的数值存在相关性
确定季节成分
确定时间序列的成分
选择预测方法
ME表示所有预测误差()的平均值
平均误差(ME)
MAE是将预测误差取绝对值后计算的平均误差
平均绝对误差(MAE)
MSE是通过平方消去误差的正负号后计算的平均误差
均方误差(MSE)
它们消除了时间序列数据的水平和计量单位的影响,是反映误差大小的相对值
MPE表示平均绝对误差
MAPE表示平均绝对百分比误差
平均百分比误差和平均绝对百分比误差(MPE和MAPE)
预测方法的评估
时间序列数据预测
时间序列预测的程序
简单平均法
移动平均法
指数平滑法
平稳序列预测
平稳序列的预测
指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律
趋势预测的误差可用线性回归中的估计标准误差来衡量
线性趋势预测
用于描述以几何级数递增或递减的现象,即时间序列的观察值Yt按指数规律变化,或者说时间序列的逐期观察值按一定的增长率增长或衰减
一般的自然增长及大多数经济序列都有指数变化趋势
指数曲线的趋势方程
指数曲线
有些现象的变化形态比较复杂,它们不是按照某种固定的形态变化,而是有升有降,在变化过程中可能有几个拐点,需要拟合多项式函数
只有一个拐点,拟合二阶曲线;有两个拐点,拟合三阶曲线,有k-1个拐点,需要拟合k阶曲线
方程式
多阶曲线
非线性趋势预测
趋势型序列的预测
方法1:季节性多元回归模型
方法2:季节自回归模型
通常是将时间序列的各个因素依次分解出来,然后进行预测
指含有趋势、季节、周期和随即成分的序列
计算季节指数
分离季节成分
确定并分离季节成分
建立预测模型并进行预测
复合型序列的分解预测
13. 时间序列分析和预测
指数概念
按照考察对象的范围不同,可分为个体指数和总指数
按照所反映指标的性质不同,可分为数量指标指数和质量指标指数
按照计算形式的不同,可分为简单指数和加权指数
指数分类
选择项目
确定权数
计算方法
指数编制中的问题
基本问题
简单综合指数
简单平均指数
简单指数
加权综合指数
加权平均指数
加权指数
总指数编制方法
总量指数体系分析
平均数变动因素分解
指数体系
居民消费价格指数
股票价格指数
消费者满意度指数
几种典型的指数
综合评价与综合评价指数
综合评价指数的构建方法
综合评价指数
14. 指数
百度百科:统计学
收集、处理、分析、解释数据并从数据中得出结论的科学(结合大量数学以及其他学科的专业知识)
统计学
收集:取得统计数据
处理:将数据用图表等形式展现出来
分析:选择适当的统计方法研究数据,并从数据中提取有用的信息进而得出结论
分析的目的是从数据中找出规律,寻找启发,而非寻找支持
统计研究的是数据
是用直观图形(如条形图,饼图等),汇总的表格和概括性的数字(如平均数)表示数据的分布、形状等特征,并为进一步的统计推断提供依据
描述统计
是根据样本信息对总体进行 估计、假设检验、预测或其他推断的统计方法
推断统计
数据分析所用方法
统计及其应用领域
特点:用文字或数字代码表现事物品质特征或属性特征
定类数据/名义 (类别)
定序数据/有序 (有顺序的类别:好,中,差)
定性数据/分类数据
特点:用数值来表现事物数量特征的数据
定距数据(可以进行加、减运算,例如:温度),没有绝对零点(绝对零点是指0代表无)
定比数据(可以进行加、减、乘、除运算。如长度、高度、利润),有绝对零点
定量数据(数值型数据)
按计量尺度
截面数据(静态数据,是同一时间对同一总体内不同单位观察的数据,例如:某固定年份各地区的生产总值)
时间序列数据(不同时间对同一总体的数量表现观察的数据))
按被描述现象与时间的关系
绝对数:现象的规模,水平
相对数:由两个互相联系的绝对数对比求得
百度百科:平均数
平均数:反应现象总体的一般水平或分布的集中趋势
按表现形式
观测数据
实验数据
按收集方法
统计数据的类型
所研究事物的全体,如一批灯泡
总体
组成总体的各个个体,如某个灯泡
个体(总体单位)
从总体中抽取的一部分元素的集合
样本
构成样本的元素的数目
样本量
总体与样本
描述总体特征的概括性数字度量,是未知的常数
参数
描述样本特征的概括性数字度量,是样本的函数,不含未知参数,用来推断总体参数
统计量
参数和统计量
是说明总体单位属性和数量特征的名称,包含标志名称+标志表现
品质标志(标明总体单位的属性特征):性别 男
数量标志(标明总体单位的数量特征):年龄 15
种类(根据标志表现不同)
标志
属性上的差异:性别,文化程度
数量上的差异:年龄,身高
标志表现在总体单位之间的差异
变异
说明现象某种特征的概念,具体取值就是变量值
按计量尺度分:分类变量,顺序变量,数值型变量
按变量的取值确定与否分:随机变量,非随机变量
按变量值连续出现与否分:连续型变量,离散型变量
分类
变量
标志、变异和变量
是反映总体的数量特征的概念,包含指标特征+指标数值
指标
指标只能说明数量特征
一系列相互联系的统计指标组成的有机整体
指标体系
指标和指标体系
几个基本概念
1. 导论
源于别人调查或实验的二手数据
间接来源
实验组和对照组
普查
全面调查
简单随机抽样:从总体N个单位的抽样框中随机地,一个个地抽取n个单位作为样本,每个单位入样概率相同
分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
整群抽样:先将总体分为若干群,抽样时直接抽取群,对群中所有单位全部调查
系统抽样:将总体中的所有单位按一定顺序排列,在规定的范围内随机抽取一个单位为初始单位,再按事先制定的规则确定其他样本单位
多阶段抽样:根据实际情况将整个抽样程序分为若干个阶段,一个阶段一个阶段地进行抽样
概率抽样/随机抽样(样本按随机原则抽取,排除主观因素影响)
方便抽样:依据方便的原则,自行确定作为样本的单位
重点调查
典型调查
代表抽样
判断抽样:根据经验、判断和对研究对象的了解有目的的选择一些单位作为样本
自愿样本
滚雪球抽样
配额抽样:将总体中的所有单位按一定标志(变量)分为若干类,在每个类中采用方便抽样或判断抽样的方式选择样本单位
非概率抽样
非全面调查
调查方法
自填式
面访式
电话式
搜集数据的方法
调查数据
直接来源
数据的来源
是由于抽样的随机性所带来的误差,只存在于概率抽样中
样本量的大小(最重要)
总体的变异性
抽样方法
相关因素
抽样实际误差,由于总体参数未知,无法计算
抽样平均误差:标准误差,即样本均值的标准差
抽样极限误差:给定的样本统计量与总体参数误差范围不能超过的数值
类别
抽样误差
抽样框误差
回答误差
无回答误差
调查员误差
测量误差
非抽样误差
数据的误差
2. 数据的搜集
完整性:检查应调查的单位或个体是否有遗漏,所有的调查项目是否齐全
准确性:检查数据是否有逻辑错误和计算错误,是否有异常值
适用性:检查数据来源、口径及相关背景资料是否符合分析研究的需要
时效性:所取数据过于滞后可能会失去研究意义
数据审核
1. 剔除某些不符合要求的数据或有明显错误的数据
2. 将符合某种特定条件的数据筛选出来
数据筛选
按一定顺序将数据排列,有助于检查纠错,也有助于找到明显的特征或趋势
数据排序
可对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成符合需要的交叉表(列联表)
数据透视表
数据预处理
列出所分类别,计算每一类别的频数,频率或比例,比率,形成频数分布表
用宽度相同的条形的高度或长短来表示数据多少的图形,可横置或纵置
条形图
按各类别数据出现的频数多少排序后绘制的条形图
容易看出哪类数据出现的多,哪类数据出现的少
帕累托图
用圆形及圆内扇形的角度来表示数值大小的图形
主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例
饼图
饼图叠在一起,挖去中间部分
可显示多个样本各部分所占的相应比例
环形图
分类数据的图示
分类数据的整理与图示
分类数据的整理与图示方法均适用
将各有序类别或组的频数或百分比逐级累加起来得到的频数或频率
向上累计:从类别顺序的开始一方 向 类别顺序的最后一方累计(数值型分组数据则是从变量值小的一方 向变量值大的一方累计)
向下累计:从类别顺序的最后一方向类别顺序的开始一方累计(数值型分组数据则是从变量值大的一方向变量值小的一方累计)
累积频数和累积频率
折线图
累计频数分布图
顺序数据的图示
顺序数据的整理与图示
品质数据的整理与展示
分类与顺序数据的整理与图示方法均适用
穷尽原则(不漏)
互斥原则(不重)
分组原则
单变量值分组:每个自变量自成一组,适用于变动范围不大的离散型变量
组限相连(或重叠)
遵循“上组限不在内”原则,即恰好等于本组上组限的变量值不在本组内
连续型组距式分组
相邻两组组限不重叠
间断型组距式分组
按组限是否重叠分 (组限是相邻两组的数量界限,分上限(最大值)和下限(最小值))
等距分组
异距分组
按组距是否相等分 (组距=本组上限-本组下限)
组距分组
分组方法
(上限值+下限值)/2
一般作为改组数据的代表值,组内均匀分布时代表性高
组中值
数据分组整理
横轴代表数据分组,纵轴表示频数/频率
适用于大批量数据
分组数据:直方图
保留了原始数据信息
适用于小批量数据
茎叶图
最大值
最小值
中位数
上下四分位数
组成特征值
离群点 :超过四分位差1.5倍距离
极端值:超过四分位差3倍距离
箱线图
未分组数据
反映现象随时间变化的特征,时间再横轴,观测值再纵轴
时间序列数据:线图
用二维坐标展示两个变量之间关系的图形
用于展示三个变量之间的关系
气泡图
显示多个变量
在显示或对比数值总和时十分有用,可研究多个样本之间的相似程度
雷达图/蜘蛛图
多变量数据的图示
数值型数据的图示
数值型数据的整理与图示
数据的整理与展示
显示数据
让读者把注意力集中在图形的内容上,而非制作图形的程序上
避免歪曲
强调数据之间的比较
服务于一个明确的目的
有对图形的统计描述和文字说明
好的图形所具体的特征
应当精心设计,有助于洞察问题的实质
应当使复杂的观点得到简明、确切、高效的阐述
应当能在最短的时间内以最少的笔墨给读者提供大量的信息
应当是多维的
应当表述数据的真实情况
鉴别图形优劣的准则
合理使用图表
3. 数据的图表展示(描述统计)
一组数据中出现频数最多的变量值
主要用于分类型数据,也可用于顺序型和数值型
是位置代表值,不受极端值影响
最高峰点所对应数值即为众数
分类数据:众数()
奇数:
偶数:
一组数据排序后处于中间位置上的变量值
主要用于顺序型数据,也适用于数值型
中位数()
一组数据排序后处于25%和75%位置上的变量值:和
主要反映处于中间50%数据的分布情况
适用于顺序型数据和数值型数据
四分位数
顺序数据
是进行统计分析和统计推断的基础,极易受极端值影响
未分组:简单平均数
有分组:加权平均数
算术平均数
实际应用于计算现象的平均发展速度,也适用于对某些具有环比性质的比率求平均,当数据中出现零值和负值时不宜计算几何平均数
简单几何平均:
加权几何平均:
举例求平均增长率
几何平均数
数值型数据:平均数
数据对称分布:
数据左偏分布:M_e\\overline{x}\" contenteditable=\"false\"
数据右偏分布:span class=\"equation-text\" data-index=\"0\" data-equation=\"M_0M_e
三者关系
众数具有不唯一性,只有在数据量较多时才有意义,适合作为分类数据的集中趋势测度值
当数据分布偏斜程度较大时,适合使用中位数,且中位数适合作为顺序数据的集中趋势测度值
数据均匀分布时,应选平均数作为集中趋势代表值,但对于偏态数据代表性较差
特点,应用场合
众数、中位数和平均数的比较
集中趋势的度量
非众数组的频数占总频数的比率
主要用于衡量众数对一组数据的代表程度
异众比率越大,众数的代表性越差,反之,越好
分类数据:异众比率:
上四分位数与下四分位数之差,反映了中间50%数据的离散程度
主要用于衡量中位数对一组数据的代表程度
不受极端值的影响,其数值越小,说明中间的数据越集中,反之,越分散
顺序数据:四分位差(内距/四分间距):
计算简单,但易受极端值影响,不能反映中间数据的分散状况,不能准确描述出数据的分散程度
极差:
各变量值与其平均数离差绝对值的平均值
以平均数为中心,反映了每个数据与平均数的平均差异程度
平均差越大说明数据的离散程度就越大,平均数代表性越大
未分组:
有分组:
平均差(平均绝对离差)
各变量值与其均值的离差平方和的平均数为方差,方差的平方根为标准差
能较好地反映出数据的离散程度,是应用最广泛的离散程度的测度值
标准差有量纲,与变量值的计量单位相同,其实际意义比方差更清楚
方差和标准差
变量值与其平均数的离差除以标准差后的值
测度每个数据在该组数据的相对位置,可用来判断离群值
对多个不同量纲的变量进行处理时,常需要对各变量进行标准化处理
标准分数(标准化值或z分数):
约有68%的数据在平均数+/-1个标准差的范围之内
约有95%的数据在平均数+/-2个标准差的范围之内
约有99%的数据在平均数+/-3个标准差的范围之内
在+/-3个标准差之外的数据为离群点
只适合对称分布的数据
经验法则
对任何分布形态的数据都适用
至少有的数据落在+/-k个标准差之内
至少有75%的数据在平均数+/-2个标准差的范围之内
至少有89%的数据在平均数+/-3个标准差的范围之内
至少有94%的数据在平均数+/-4个标准差的范围之内
切比雪夫不等式
相对位置的度量
一组数据的标准差与其相应的平均数之比
为了消除变量值水平高低和计量单位不同对离散程度测度值的影响(比较不同样本数据的离散程度)
相对离散程度:离散系数(变异系数):
数值型数据:方差和标准差
离散程度的度量(变异指标)
正数,正偏/右偏
负数,负偏/左偏
0.5~1,-0.5~-1,中等偏态
>1,<-1,高度偏态
越接近0,偏斜程度越低
表现
偏态系数(三次中心距)
3,服从正态分布
>3,尖峰分布,分布更集中
<3,扁平分布,分布越分散
峰态系数(四次中心距)
偏态与峰态的度量(分布形状)
4. 数据的概括性度量(简单描述统计)
在同一组条件下,每次试验可能出现也可能不出现的事件
随机事件
在同一组条件下,每次试验一定出现的事件
必然事件
在同一组条件下,每次试验一定不出现的概率
不可能事件
随机事件的几个基本概念
即基本空间中只含有限个元素,如掷硬币只有“正面朝上”和“反面朝上”两种结果
结果有限
各个结果出现的可能性被认为是相同的
P(A)=事件A所包含的基本事件个数/样本空间所包含的基本事件个数=m/n
概率的古典定义
古典概率局限性:随机试验只有有限个可能结果的范围,使其应用受限,引出概率的统计定义
在相同条件下随机试验n次,某事件A出现m次(),则比值m/n称为事件A 发生的频率
随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率
概率的统计定义
指对一些无法重复的试验,只能根据以往的经验,人为确定这个事件的概率。是一个决策者根据本人掌握的信息对某个事件发生可能性做出的判断。
是工商活动中决策者常用的一种判断方法
主观概率定义
事件的概率的定义
随机事件及其概率
非负性:
规范性:对于必然事件Ω,必有P(Ω)=1
对于随机事件span class=\"equation-text\" data-index=\"0\" data-equation=\
概率的基本性质
P(A+B)=P(A)+P(B)-P(AB)
任意两个事件和(并)的概率
P(A+B)=P(A)+P(B)
两个不相容事件和(并)的概率
概率的加法法则
条件概率:在“事件B已发生”的条件下,事件A 发生的概率,记作P(A|B)
乘法公式: P(A|B)=P(AB)/P(B) --> P(AB)=P(B)P(A|B)=P(A)P(B|A)
条件概率和乘法公式
全概率公式
贝叶斯公式
事件B的发生并不影响事件A发生的概率称事件A与B之间统计独立
P(A|B)=P(A) --> P(AB)=P(B)P(A|B)=P(A)P(B)
事件的独立性
概率的计算公式
概率的性质与运算法则
随机变量就是其取值带有随机性的变量,是基于随机事件的一个概念。
随机变量X的所有取值都可以逐个列举出来,例如:在一批产品中取到次品的个数,单位时间内某交换台收到的呼叫次数
离散型随机变量
随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任一点,例如:一批电子元件的寿命,实际工作中常遇到的测量误差
连续型随机变量
种类
随机变量的概念
随机变量的一切可能值的集合(值域),及其相应的概率
随机变量的统计性质可由他的概率分布来表征
概率分布的概念
离散型随机变量X的每一个可能的取值和随机变量取该值的概率p()之间所确立的对应关系,称作这个离散型随机变量的分布。P()=p()
p(span class=\"equation-text\" data-index=\"0\" data-equation=\"x_i\" contenteditable=\"false\
定义
p()
性质
数学期望
span class=\"equation-text\" data-index=\"0\" data-equation=\"D(X)=E(X-E(X))^2=E(X^2)-[E(X)]^2\" contenteditable=\"false\
方差与标准差
用来比较不同期望值的总体之间的离中趋势
离散系数
数字特征
随机变量X只取0和1两个值,取1的概率是p,取0的概率是1-p,则X服从两点分布或0-1分布
例如:新生婴儿的性别,产品质量是否合格,某种试验是否成功
数字特征:E(X)=p, D(X)=p(1-p)
两点分布
试验由条件完全相同的n个贝努里试验组成
每次试验只有“成功”和“失败”两种对立的结局
各次试验相互独立
性质(缺一不可)
x代表成功的次数
p代表一次试验中成功的概率
n代表试验的次数
f(x)代表n次试验中有x次成功的概率
span class=\"equation-text\" data-index=\"0\" data-equation=\
概率函数
例如:已知100件产品中有5件次品,从中任取1件,有放回的取3次,X为所取的3件产品中的次品数,X~B(3,0.05)
数字特征:E(X)=np, D(X)=np(1-p)
二项分布
用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布
在任意两个长度相等的区间上,事件发生的概率是相等的
事件在任一区间上是否发生与事件在其他区间上是否发生是独立的
f(x)代表事件在一个区间上发生x次的概率
代表事件在一个区间上发生次数的数学期望或均值
e=2.71828
例如:某企业每月发生事故的次数,某种仪器每月出现故障的次数
数字特征:E(X)=D(X)=
在n重贝努里试验中,当成功的概率很小(p->0),试验次数很大时,二项分布近似等于泊松分布(方便计算)
泊松分布
在超几何概率分布中,各次试验是不独立的
各次试验中成功的概率不等
与二项分布的区别
span class=\"equation-text\" data-index=\"0\" data-equation=\"P\\lbrace X=x\brace =f(x)=C_M^xC_{N-M}^{n-x}/C_N^n\" contenteditable=\"false\
例如:已知100件产品中有5件次品,从中任取1件,不放回的取3次,X为所取的3件产品中的次品数
数字特征:E(X)=np, D(X)=np(1-p),其中p=M/N
超几何分布
常用分布
离散型随机变量及其分布
随机变量X 的一系列取值区间(可以是由与实数轴上的任意点所构成的一系列区间)和随机变量在该区间取值的概率之间确立的对应关系,称作这个连续型随机变量的分布。
连续型随机变量的分布可以用密度函数来描述,记作f(x),密度函数不是概率
连续型随机变量的概率也可以用分布函数F(x)来表示,分布函数定义为:span class=\"equation-text\" data-index=\"0\" data-equation=\
方差
均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)
概率密度函数
分布函数
数学期望和方差
均匀分布
描述连续型随机变量最重要的概率分布,又叫高斯分布
,即整个概率密度曲线都在x轴的上方
曲线f(x)相对于x=u对称,并在x=u处达到最大值,
曲线的陡缓程度由决定,σ越大,曲线越平缓,反之,曲线越陡峭
当x趋于无穷时,曲线以x轴为其渐近线
正态分布曲线下的总面积是1
特征
正态曲线
常用区间内取值百分比
随机变量服从均值为0,标准差为1的正态分布
概率密度函数及分布函数
标准正态曲线
任何一个一般的正态分布都可通过线性变换转化为标准正态分布。设X~N(span class=\"equation-text\" data-index=\"0\" data-equation=\
线性变换
标准正态分布
1.先通过线性变换转为标准正态分布
2.通过查表获得概率值。对于负值,可以通过1减去x绝对值查表所得的概率值获得
概率计算
正态分布
连续型随机变量及其分布
随机变量及其分布
5. 概率与概率分布
是由样本构造的函数,它不依赖于任何未知参数
统计量的概念
样本的均值,反映出总体X数学期望的信息
样本均值:
反映的是总体X方差的信息
样本方差:
反映出总体变异系数C的信息,此统计量消除了均值不同对总体的离散程度的影响,用于刻画均值不同时不同总体的离散程度
样本变异系数:
通常把数学期望及方差等概念用“矩”来描述,常用的样本各阶矩及其函数都是实际应用中的具体统计量。一阶矩就是均值
反映出总体k阶矩的信息
样本k阶矩:
反映总体k阶中心矩信息,就是样本方差
样本k阶中心矩:
反映总体偏度信息,偏度反映了随机变量密度函数曲线在众数两边的偏斜性。如果X~N(span class=\"equation-text\" data-index=\"0\" data-equation=\
样本偏度
反映总体峰度信息,峰度反映了随机变量密度函数曲线在众数附近的“峰”的尖峭程度。如果X~N(span class=\"equation-text\" data-index=\"0\" data-equation=\
样本峰度
常用统计量
概念:在总体X的分布类型已知时,若对任一自然数n都能导出统计量T的分布的数学表达式,这种分布称为精确的抽样分布,它对样本量n较小的统计推断问题非常有用。
设随机变量span class=\"equation-text\" data-index=\"0\" data-equation=\
独立变量的个数
二次型的秩
自由度
期望n
方差2n
可加性
n趋向正无穷时,卡方分布的极限分布是正态分布
t分布的诞生促进了小样本理论
当
自由度为1的分布称为柯西分布,随着n增加,t分布越接近标准正态分布()
当2,E(t)=n/(n-2)\" contenteditable=\"false\"
当4,D(t)=2n^2(m+n-2)/m(n-2)(n-4)\" contenteditable=\"false\"
由正态分布导出的三大重要分布
抽样分布
抽样分布仍为正态分布,span class=\"equation-text\" data-index=\"1\" data-equation=\
当总体分布为正态分布时
设从均值为,方差为(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时(),样本均值的抽样分布近似服从均值为,方差为的正态分布
总体偏离正态越远,要求n越大
实际应用中,总体分布未知,通常要求
小样本:在样本量固定的条件下所进行的统计推断,问题分析都为小样本问题
大样本:在样本量条件下所进行的统计推断,问题分析都为大样本问题
为大样本,n<30为小样本只是经验说法
关于n充分大的解释
中心极限定理
当总体分布不为正态分布时
样本均值的分布与中心极限定理
6. 统计量及其抽样分布
统计学大纲
0 条评论
回复 删除
下一页