《中级经济师经济基础》读书笔记
2021-10-07 10:12:34 22 举报
AI智能生成
《中级经济师-经济基础》备考
作者其他创作
大纲/内容
定义:收集、整理、分析、得出结论的科学
居民消费价格指数(CPI)等
总结现在
描述统计
如:民调统计总统支持率、调查用户满意度
参数估计:利用样本推测总体特征
如:利用抽样数据进行回归分析、验证满意度更倾向于忠诚客户
假设检验:利用样本推测总体假设是否成立
预测将来 / 判断规律
推断统计
分支
统计学
男、女;本地、外来;...
定性
数量(数字)
定量
变量
GDP、CPI等
观测数据
使用寿命、药物数据(多在自然科学领域)
实验数据
调查、观察、实验
一手数据
别人发布的数据(如CPI结果)
二手数据
数据
费时费力、误差大,但贵在全面!
人口普查等
全面调查
抽样调查
重点调查
典型调查
非全面统计报表
非全面调查
按对象
经常性、高频率调查(人口出生、原料投入等)
连续调查
间隔相当长的时间才调查(耕地面积、生产设备统计等)
不连续调查
按登记时间
分类
自上而下统一布置,自下而上提交数据,然后汇总统计分析
统计报表
每隔5年或10年:人口普查、农业普查、经济普查...
普查
经济性
时效性
适应面广
相比全面调查因为工作量大、环节多,误差往往较大
准确性高
优点
子主题
选取一部分重点单位进行调查
选取一部分具有典型性、代表性的单位
调查方式
统计调查
数据量大
数据多样性
价值密度低
数据产生与处理速度快
4大特点
大数据
数据源:量大、真实、但有噪声
有需求
要发现用户感兴趣的知识
有价值
要发现的知识是可接受、可理解、可运用的
要发现的是特定的问题,不是放之四海皆准的知识
特征
有学习目标,根据目标来建模
监督学习(指导学习)
探索数据之间的联系,发现其隐藏规律与价值
无监督学习
已知分类种类,识别分类标签(监督学习)
未知分类种类,归纳出分类
聚类分析
如:啤酒和尿布
发现数据的内在关联性,并根据其一预测另一
关联分析
如:根据twitter中公众情绪预测股价
利用现有数据,预测将来数据
趋势与演化分析
特征分析
异常分析
算法
数据挖掘
理论基础
如:总体总量、总体均值、总体方差、总体比例
总体参数
如:样本均值、样本比例、样本方差
样本统计量
在总体内,可被抽样的抓手。如:登记在册的公司,营业执照就是其抽样框,但无证经营的就没有框
抽样框
概念
问题/目标
确定调查问题
方案
设计调查方案
实施
实施调查过程
分析
数据处理分析
报告
撰写调查报告
抽样一般步骤
由于抽样的随机性造成
抽样误差
抽样框缺失
抽样框误差
样本不在家
随机因素
样本拒绝回答
不回答的样本没有统计在内
非随机因素
无回答误差
诱导样本、记录错误、作弊、样本提供虚假信息
计量误差
非抽样误差
误差
事先知道抽样原则
被抽中的概率已知或可计算
用样本反推总体时,应考虑样本抽中的概率
放回
信息可能重叠,不准
不放回
优点:简便
缺点:没有充分利用抽样框的辅助信息
适用条件:抽样框没啥多余可用信息、调查对象较集中、个体差异不大
简单随机抽样
先把总体分成几个层级,然后在层内再抽样
优点:除总体参数外,还可估计各层参数;便于抽样(按行政区划或行业分层);降低抽样误差(每层都有)
层中总数越多,抽样越多
等比例分配
少的层数量太少,再按比例抽样就没有了
不等比例分配
样本分配方法
适用条件:抽样框中有足够辅助信息,能方便分层
分层抽样
按一定顺序排列,随机抽取(通常是等距)
优点:操作简单、对抽样框要求低
缺点:方差估计复杂,计算抽样误差困难
系统抽样(排序抽样)
如:先抽取一些企业,入样的企业的【所有】员工都抽样
按一定规则分为不同的群组,再【整组整组】地抽
优点:高效、抽样框编制变得很简单(不需要全部人员的抽样框)
缺点:群内差异较小,而群与群的差别比较大时,按群抽的误差会比较大
整群抽样
分成多阶段来抽样
多阶段抽样
现实中:多种抽样方法组合:比如第一阶段是分层,第二阶段是系统
方法
概率抽样(随机抽样)
判断抽样:调查人员判断决定
方便抽样:如:小区门口拦截式调查
自愿样本:如:网上调查
配额抽样:将总体分成若干类型或组(再方便抽样)
非概率抽样
只要抽样次数足够足够足够多,估计量就是实际值
估计量的无偏性
方差越小,抽样效率越高,误差越低。可以根据方差估计抽样有效性
估计量的有效性
样本越多,估计值越收敛于实际值(方向一致)
估计量的一致性
样本量 ∝ 精度要求 * 离散程度(方差) * 总体规模 * 无回答比例 * 经费
样本量的确定
估计量和样本量
抽样分类
在离散程度大(方差大)的情况下,论平均值就是耍流氓!如:平均收入
缺点:平均值非常容易受到极端值的影响!代表性差!
适用:定量变量
简单粗暴求平均
均值
优点:不易受极端值影响,抗干扰强。尤其适合【收入】这种偏斜分布的!
适用:定量、顺序(如时间)变量
按大小排序,排在中间数
中位数
可适用数值型、也可适用非数值型!
优点:不受极端影响,分布呈偏态时,代表性好
适用:分类、顺序变量
出现频率最高的
众数
集中趋势
不放回》N-1
各数值与平均值的差的平方和
方差
方差的开根
标准差
消费了数据绝对值的因素,系数越大,越离散!
=标准差 / 均值
离散系数
离散程度(离散越小,集中趋势就越准)
描述数据分布的正态性
=0:完全对称!
|0-0.5|:轻度偏!
|0.5-1|:中度偏!
|>1|:重度偏!
偏态系数
用来比较不同群组中不同数值的所在水平
前提是:偏态系统较小,偏态系数越大越不准
68%的数据与均值在1个标准差内
95%的数据与均值在2个标准差内
99%的数据与均值在3个标准差内
如果正态分布
标准分数
偏态
完全相关、不完全相关、不相关
正相关、负相关
线性相关、非线性相关
相关性
用散点标记所有观测值,直观地观察相关关系
散点图
永远在-1与1之间
|1|:Y完全依赖X
0:Y与X完全无关
-1与0之间:负相关
0与1之间:正相关
越靠近0,越不相关,越靠近|1|,越相关
Pearson相关系数
变量相关分析
对数据分布的测度
实质:分析变量间是否有相关性
相关分析
前提:变量有相关性
实质:分析相关性的具体形态(线性、正态、曲线..),再用数据模型来表达
回归分析
一元回归模型(1个自变量)
多元回归模型(2个以上自变量)
线性模型
非线性模型
回归模型
相关分析负责判断有没有关系,回归分析负责描绘形态
只适用于:一元线性回归模型
根据公式找到一条最近似的直线,让所有观测值与垂直线上点的距离绝对值(离差)的平方和最小
最小二乘法
0-1之间
系数越高,拟合效果越好
0:完全无效
1:完美拟合
决定系数 R^2
极端样本概率P值(反证法),如果小于0.05,说明反证不可信,拟合效果好
回归系数的显著性检验
模型检验(拟合效果分析)
模型完成后,直接预测:代入X,得出Y
模型预测
二元回归模型下,决定系数R^2可能不准(因为可能一个小R^2的自变量隐藏在另一个大R^2的自变量下,显得总体R^2还可以
二元回归模型下,用t检验取P值更好,只要两个P值都通过【<0.05】考验,拟合效果就行!
二元回归模型
数据所属时间
数据值
在时间序列轴上,对数据进行比较、分析
过程量,如:年收入
时期序列
瞬间值,如:人口数
时点序列
绝对数时间序列
相对数时间序列
平均数时间序列
最初水平(期初值)
中间水平(中间值)
最末水平(期末值)
报告期水平(报告值)
发展水平(不讲人话!讲人话:数值多大)
各时期值相加除总时期(算术平均)
算术平均
逐日登记,逐日排列
加权平均(变动相隔天数加权)
非逐日登记(变动才登记)
连续时点
先求:相邻间隔平均值(Y1+Y2)/2 ,再算术平均
固定间隔
先求:相邻间隔平均值(Y1+Y2)/2 ,再加权平均(间隔长度)
非固定间隔
间断时点
数据为绝对数
不能直接计算,必须将分子分母的平均数先算出,再求比
数据为相对数(百分比)
计算方法
平均发展水平(平均值多大)
逐期增长量
累计增长量
增长量
逐期增长量的算术平均
平均增长量
水平分析(多少)
定基
环比
发展速度(新值 / 基值)
定基=期内各期环比乘积
增长速度(增量 / 基值)
不能互相推算
增长速度的开N次根(N期)
平均发展速度
(无法计算),直接=平均发展速度-1
平均增长速度
出现0或负数
速度指标禁忌
速度分析(多快)
适用:平稳时间序列的预测
移动平均:最近N期的算术平均
指数平滑法:下期预测值 = 本期的预测值*(1-权重)+本期实际值*权重
平滑预测
时间序列分析
统计
0 条评论
回复 删除
下一页