数学建模
2024-01-15 16:49:26 14 举报
AI智能生成
登录查看完整内容
数学建模是一种通过建立数学模型来解决实际问题的方法。它通常包括以下几个步骤:首先,对实际问题进行抽象和简化,确定问题的数学模型;其次,根据模型的特点选择合适的数学方法和工具进行分析和求解;最后,将结果反馈到实际问题中,验证模型的有效性。数学建模在科学研究、工程设计、经济管理等领域有着广泛的应用。它不仅可以帮助我们更好地理解复杂的现象,还可以为决策提供科学依据。总之,数学建模是一种强大的工具,能够帮助我们解决各种实际问题。
作者其他创作
大纲/内容
!插值算法可用于短期预测
优点:保持插值曲线在节点处有切线(光滑),使插值函数和被插值函数的密合程度更好。
分段三次埃尔米特(Hermite)插值
三次样条插值
插值算法
预处理
线性关系(散点图)
正态分布JB检验(大样本n > 30)雅克-贝拉检验(Jarque-Bera test)
H0:该随机变量服从正态分布spss:分析-描述统计-探索-含检验的正态图√
夏皮洛-威尔克检验(Shapiro-wilk)(小样本 3<=n<=50)
看图上的点是否近似地在一条直线附近。qqplot(x)
Q-Q图(数据量非常大)
正态性检验
相关系数表可以做色阶图。根据p值可以在对应r上添加*,代表显著性水平。
皮尔逊相关系数
查临界值表(小样本n<30),r >= 表中临界值,才显著。
假设检验
斯皮尔曼相关系数
连续,正态,线性——皮尔逊。任一不满足,用斯皮尔曼,两个定序数据也用
相关性分析
μ为误差项,包含了所有与y相关,但未添加到回归模型中的变量,如果这些变量和我们已经添加的自变量相关,则存在内生性。会导致回归系数估计的不准确(不满足无偏和一致性)。实际应用中,只要保证核心解释变量与μ不相关即可。
内生性
(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;(2)以年度量的变量,如受教育年限、工作经历等通常不取对数;(3)比例变量,如失业率、参与率等,两者均可;(4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)。
什么时候取
(1)减弱数据的异方差性;(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布;(3)模型形式的需要,让模型具有经济学意义。
取对数的好处
取对数
(1)一元线性回归:𝑦 = 𝑎 + 𝑏𝑥 + 𝜇,x每增加1个单位,y平均变化b个单位;(2)双对数模型:𝑙𝑛𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇,x每增加1%,y平均变化b%;(3)半对数模型:𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇,x每增加1%,y平均变化b/100个单位;(4)半对数模型:𝑙𝑛𝑦 = 𝑎 + 𝑏𝑥 + 𝜇,x每增加1个单位,y平均变化(100b)%。
四类模型回归系数的解释
为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。(例如性别有两类,引入gender变量,1为男,0为女)
虚拟变量(定类变量,例如性别、地域)
模型设定部分
数据的描述性统计
(1)回归分为解释型回归和预测型回归。预测型回归一般才会更看重R^2。解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。(2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。(3)数据中可能有存在异常值或者数据的分布极度不均匀。
拟合优度R^2(调整后的拟合优度)
regress y x1 x2 … xk(默认使用的OLS:普通最小二乘估计法)探究自变量与因变量关系
1、在回归结束后运行命令:rvfplot (画残差与拟合值的散点图)rvpplot x (画残差与自变量x的散点图)
检验异方差
(1)使用OLS + 稳健的标准误(最简单,通用)(2)广义最小二乘估计法GLS原理:方差较小的数据包含的信息较多,我们可以给予信息量大的数据更大的权重(即方差较小的数据给予更大的权重)
解决异方差
异方差
计算各自变量VIF的命令(在回归结束后使用):estat vif 如果VIF>10,则认为存在严重多重共线性
方差膨胀因子VIF
(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,可忽略假设你的整个方程是显著的)。(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,可忽略。(3) 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对模型设定进行修改。
处理方法
多重共线性
回归后的检验
注:(1)x1 x2 … xk之间不能有完全多重共线性(和regress不同哦) (2)可以在后面再加参数b和r,即标准化回归系数或稳健标准误
逐步回归
代码部分(stata)
多元线性回归分析
根据累计贡献率确定主成分,根据系数分析主成分代表的意义,主成分的结果可用于聚类,回归。
主成分分析
首先要确定原始数据是否适合进行因子分析,即能否通过KMO检验和巴特利特球形检验。
碎石图检验确定公共因子的个数
因子分析(可解释性更高)
降维算法
未给出数据,指标方案数少(一般不大于10)
1、分析各因素中间的关系,建立系统 的层次结构。(目标层,准则层,方案层)层次结构图
2、上下两层间有影响的因素构造判断矩阵。
3、根据判断矩阵计算相对权重(矩阵要通过一致性检验,CR<0.1),使用算术平均法、几何平均法、特征值法计算,保证稳健型。
4、根据权重矩阵计算各方案得分,进行排序。
实现步骤
层次分析法
指标给出数据
1、原始矩阵正向化:极大型、极小型、中间型、区间型。
2、正向化矩阵标准化:去除量纲的影响,(每一个元素/根号下其所在列的元素的平方和)
3、计算得分并归一化:计算,各列的值与其所在列的最大值差值的平方和开根作为其与最大值的距离(D+),最小值(D-)相反,Si为D-/(D+ + D-) 归一化:得分/总分
拓展:带权值的topsis法。可以使用层次分析法(主观性强)或熵权法确定各因素的权值。熵权法计算步骤:1、正向化并标准化矩阵(存在负数要使用另外一种标准化方法)2、……(是否建议使用有待商榷)
Topsis优劣解距离法
模糊评价问题是要把论域中的对象对应评语集中一个指定的评语或者将方案作为评语集并选择一个最优的方案。
基本概念
1、确定因素集,评语集,和权重集。
2、确定各因素与评语集中各评语的隶属函数,并计算隶属度,形成综合评判矩阵R。
3、计算最终隶属度,B=A(权重集)*(矩阵相乘)R
因素集元素过多时,进行归类,简化计算。(同一级权重和为1)
拓展:多级模糊综合评价
模糊综合评价
评价模型
!插值和拟合的区别:拟合的结果会得到一个确定的曲线。
当拟合函数为线性函数(线性于参数)时,可以用R^2评价拟合的好坏。否则,使用SSE(误差平方和)即可。
拟合效果不好时,调整fit options中自变量的初值
使用matlab拟合工具箱
拟合算法
不能含负权边
迪杰斯特拉算法
含负权的有向图(不能有负权回路)
贝尔曼-福特算法
图论最短路
算法
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。把y看成事件发生的概率,y≥0.5表示发生;y<0.5表示不发生。
spss求解,分类变量要先处理,预测结果差可加入平方项,交互项调整模型。把数据分为训练组和测试组,用训练组的数据来估计出模型,再用测试组的数据来进行测试。
逻辑回归
Fisher线性判别分析
分类模型
需要给定类的数目,spss默认使用K-means++算法,可以解决对初值以及孤立数据敏感的问题。(数据量纲需一致)
K-means聚类
作聚合系数折线图确定分类个数(肘部法则)。
系统聚类
基于密度的聚类
DBSCAN算法
算法选择:数据作图表现出DBSCAN的特征,选用DBSCAN算法,其余优先系统聚类,可写的内容多。
聚类模型
长期趋势、季节趋势、循环变动、不规则变动。四种变动与指标数值最终变动的关系可能是叠加关系,也可能是乘积关系。
叠加模型和乘积模型(要求数据具有年内的周期性):存在季节波动选择乘积,不存在都可以。
缺失值的处理:在开头或结尾可直接删去,中间可采用插值替换缺失值。
具体步骤:1、作时间序列图;2、判断时间序列包含的变动成分;3、时间序列分解(有周期性且包含长期趋势、季节变动或循环变动);4、建立时间序列分析模型;5、 预测未来的指标数值。
时间序列分解
模型巨多,理论复杂,spss会选择最合适的模型(如果是与季节性相关的模型,可采用时间序列分解)。
可以使用平稳的R方或者标准化BIC(BIC准则)比较模型好坏。
从残差的ACF和PACF图和Q检验判断模型是否很好的识别数据。
spss时间序列专家建模器
时间序列分析(结合背景,合理假设)
灰色预测
回归模型
matlab神经网络拟合工具箱
BP神经网络
预测模型
概述:求⽬标函数在⼀定约束条件下的极值问题。 f(x):目标函数 x:决策变量 不等式约束、等式约束、整数约束。。。
线性规划
非线性规划
整数规划是⼀类要求变量取整数值的数学规划。
整数规划
0-1规划
多目标规划
数学规划模型
数学建模
0 条评论
回复 删除
下一页