最小二乘法OLS回归法
数据条件
正态性
独立性
线性
同方差性
主要函数
lm
summary
P值显著性
R方可解释比例
fitted
residuals
残差查看是否偏离
...
模型
简单线性回归
多项式回归
多元线性回归
cor变量两两间相关系数
car包中的scatterplotMatrix图形表示变量间关系
回归系数含义
其他预测变量不变时,某个预测变量和因变量的关系
有交互项的多元线性回归
lm中使用符号:
回归判断
标准方法
plot生成四幅图
Normal Q-Q图
观察正态性
Residuals vs Fitted图
观察线性
若不为直线可能要加上变换
Scale-Location Graph图
观察同方差性
水平线周围的点应随机分布
Residuals vs Leverage图
观测离群点、高杠杆点、强影响点
改进的方法
car包中的函数
正态性
qqPlot
误差独立性
最好是依据收集数据的方式先验
对于时间独立可以通过durbinWatsonTest判断
同方差性
ncvTest
spreadLevelPlot
会给出建议的变换
多重共线性
car包的vif
sqrt(vif)>2明显
异常观测值
离群点
概念
模型预测效果不佳的观测点
通常有很大的正或负的残差
正的残差说明模型低估了响应值
负的残差说明高估了相应值
判断
Q-Q图
car包的outlierTest
只能检验单个点
如果显著,需要删除该点再继续检验
高杠杆值点
概念
与其他预测变量有关的离群点
由许多异常的预测变量值组合起来
与响应变量值没有关系
可能是强影响点,也可能不是
判断
帽子统计量/hat statistic自己写的函数
强影响点
概念
对模型参数估计影响有些比例失衡的点
判断
Cook距离/D统计量
变量添加图/added variable plot
car包的avPlots
一图全含
influencePlot
纵坐标超过+-2的是离群点
横坐标大于0.2或0.3的是高杠杆值
圆圈大小与影响成正比
改进措施
删除观测点
数据记录错误
受试对象误解了指导说明
谨慎
变量变换
不满足正态性
car包的powerTransform
不满足线性
car包的boxTidwell
添加或删除变量
使用其它回归方法
选择最佳回归模型
模型比较
anova
AIC
越小越优先
变量选择
逐步回归
向前逐步回归
向后逐步回归
向前向后逐步回归
MASS包的stepAIC
全子集回归
leaps包的regsubsets
结果用leaps包的plot或car包的subsets绘制
深层次分析
交叉验证
bootstrap包的crossval
相对重要性
标准化
先使用scale对数据标准化
lm拟合后用coef比较标准差
相对权重
relweights自写函数