2021.03.09
第八章 统计回归模型
时间:2021.03.09 创作:欧阳法 回归分析是研究一个变量Y与其它若干变量X之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数.
回归分析所研究的主要问题是如何利用变量X、
Y的观察值(样本),对回归函数进行统计推断,包括
对它进行估计及检验与它有关的假设等.
回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归.
一、多项式回归 (1) 一元多项式回归
一元多项式回归模型的一般形式为
y01x...mxm.
如果从数据的散点图上发现y与x呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归.
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
1. 用函数polyfit估计模型参数,其具体调用格式如下:
p=polyfit(x,y,m) p返回多项式系数的估计值;m设定多项式的最高次数;x,y为对应数据点值.
[p,S]=polyfit(x,y,m) S是一个矩阵,用来估计预测误差.
2. 输出预估值与残差的计算用函数polyval实现,其具体调用格式如下:
Y=polyval(p,X) 求polyfit所得的回归多项式在X处的预测值Y.
[Y,DELTA]=polyval(p,X,S) p,S为polyfit的输出,DELTA为误差估计.在线性回归模型中,Y±DELTA以50%的概率包含函数在X处的真值.
3. 模型预测的置信区间用polyconf实现,其具体调用格式如下:
[Y,DELTA]=polyconf(p,X,S,alpha) 求polyfit所得的回归多项式在X处的预测值Y及预测值的显著性为1-alpha的置信区间Y±DELTA,alpha缺省时为0.05.
4. 交互式画图工具polytool,其具体调用格式如
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
下:
polytool(x,y,m); polytool(x,y,m,alpha);
用m次多项式拟合x,y的值,默认值为1,alpha为显著性水平,默认值为0.05.
例1 观测物体降落的距离s与时间t的关系,得到数据如下表,求s.
t (s) s (cm) t (s) s (cm) 1/30 11.86 8/30 61.49 2/30 15.67 9/30 72.90 3/30 20.60 10/30 85.44 4/30 26.69 11/30 99.08 5/30 33.71 12/30 113.77 6/30 41.93 13/30 129.54 7/30 51.13 14/30 146.48 解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下:
%%%输入数据 t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];
%%%多项式系数拟合 [p,S]=polyfit(t,s,2); 则得回归模型为:
%%%y的拟合值及预测值y的置信半径delta [y,dalta]=polyconf(p,t,S); 得结果如下:
2021.03.09 欧阳法创编
2021.03.09
ˆ489.2946t265.8896t9.1329. s2021.03.09 欧阳法创编
2021.03.09
y=
Columns 1 through 11
11.8729 15.7002 20.6148 26.6168 33.7060 41.8826 51.1465 61.4978 72.9363 85.4622 99.0754
Columns 12 through 14 113.7759 129.5637 146.4389 dalta=
Columns 1 through 11
0.0937 0.0865 0.0829 0.0816 0.0817 0.0823 0.0827 0.0827 0.0823 0.0817 0.0816
Columns 12 through 14 0.0829 0.0865 0.0937 %%%交互式画图 polytool(t,s,2);
polytool所得的交互式图形如图8-1所示.
图8-1
(2) 多元二项式回归
多元二项式回归模型的一般形式为
y01x1...mxm1j,kmjkxjxk.
多元二项式回归命令:rstool(x,y,’model’,alpha) x表示n´m矩阵;y表示n维列向量;alpha为显著性水平(缺省时为0.05);model表示由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):
linear(线性):y01x1mxm; purequadratic(纯二次
y01x1mxmjjx2jj1n):
;
叉
)
:
interaction(交
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
y01x1mxm1jkmjkxjxk; 二
次
)
:
quadratic(完全
1j,kmy01x1mxmjkxjxk.
例2 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量.
需求量 100 75 1000 600 收入 5 7 价格 80 1200 6 70 500 6 50 300 8 65 400 7 90 1300 5 100 1100 4 110 1300 3 60 300 9 2解 选择纯二次模型,即y01x12x211x1222x2.
%%%输入数据
x1=[1000 600 1200 500 300 400 1300 1100 1300 300]; x2=[5 7 6 6 8 7 5 4 3 9]; x=[x1' x2'];
y=[100 75 80 70 50 65 90 100 110 60]'; %%%多元二项式回归 rstool(x,y,'purequadratic'); 得如下结果:
图8-2
得到一个如图所示的交互式画面,左边是x1(=1000)固定时的曲线y(x1)及其置信区间,右边是x2(=6)固定时的曲线y(x2)及其置信区间.用鼠标移动图中的十字线,或在图下方窗口内输入,
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
可改变x1,x2.在左边图形下方的方框中输入1000,右边图形下方的方框中输入6,则画面左边的“Predicted Y1”下方的数据变为88.4791,即预测出平均收入为1000、价格为6时的商品需求量为88.4791.
在画面左下方单击”Export”,在出现的窗体中单击”ok”按钮,则beta、rmse和residuals都传送到Matlab工作区中.
在Matlab工作区中输入命令:beta,rmse,得结果:
beta=110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse =4.5362 故
回
归
模
型
为
:
22y110.53130.1464x126.5709x20.0001x11.8475x2,
剩余标准差为4.5362,说明此回归模型的显著性较好.
二、多元线性回归
多元线性回归模型的一般形式为
y01x1...mxm.
在Matlab统计工具箱中使用函数regress实现多元
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
线性回归.具体调用格式为:
b=regress(Y,X)
[b,bint,r,rint,stats]=regress(Y,X,alpha)
Y11x11Y1x221其中Y,X.........Yn1xn1x12x22...xn2...x1m...x2m.对于一元线.........xnm性回归,取m1即可.b为输出向量;b,bint表示回归系数估计值和它们的置信区间;r表示残差;rint表示残差的置信区间;stats表示用于检验回归模型的统计量,有四个数值:相关系数R2、F值、与F值对应的概率P、s2的值.相关系数R2越接近1,说明回归方程越显著;FF1(m,nm1)时拒绝H0,F越大,说明回归方程越显著;与F对应的概率P时拒绝
H0,回归模型成立;alpha
表示显著性水平(缺省时为
0.05).
残差及其置信区间可以用命令rcoplot(r,rint)画出. 例3 已知某湖泊八年来湖水中COD浓度实测值(y)与影响因素,如湖区工业产值(x1)、总人口数(x2)、捕鱼量(x3)、降水量(x4)的资料,建立y的水质分析模型.
湖水浓度与影响因素数据表
x1 1.376 x2 0.450 1.375 0.475 1.387 0.485 1.401 0.500 1.412 0.535 1.428 0.545 1.445 0.550 1.477 0.575 2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
x3 2.170 y 5.19 2.554 5.30 2.676 5.60 2.713 5.82 2.823 6.00 3.088 6.06 3.122 6.45 3.262 6.95 x4 0.8922 1.1610 0.5346 0.9589 1.0239 1.0499 1.1065 1.1387 解 作出因变量y与各自变量的样本散点图 作散点图的目的主要是观察因变量y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式.图8-3、图8-4、图8-5、图8-6分别为y与x1、x2、x3、x4的散点图.从图中可以看出这些点大致分布在一条直线旁边,因此有较好的线性关系,可以采用线性回归.
图8-3 y与x1的散点图 图
8-4 y与x2的散点图
图8-5 y与x3的散点图 图
8-6 y与x4的散点图
在Matlab中实现回归的具体代码如下: %%%输入数据
x1=[1.376 1.375 1.387 1.401 1.412 1.428 1.445 1.477]; x2=[0.450 0.475 0.485 0.500 0.535 0.545 0.550 0.575]; x3=[2.170 2.554 2.676 2.713 2.823 3.088 3.122 3.262]; x4=[0.8922 1.1610 0.5346 0.9589 1.0239 1.0499 1.1065 1.1387];
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
x=[ones(8,1) x1' x2' x3' x4'];
y=[5.19 5.30 5.60 5.82 6.00 6.06 6.45 6.95]; %%%多元线性回归
[b,bint,r,rint,stats]=regress(y',x); 得如下结果: b = -13.9849 13.1920 2.4228 0.0754 -0.1897 bint =
-26.0019 -1.9679 1.4130 24.9711 -14.2808 19.1264 -1.4859 1.6366 -0.9638 0.5844 r = -0.0618 0.0228
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
0.0123 0.0890 0.0431 -0.1473 0.0145 0.0274 rint =
-0.1130 -0.0107 -0.1641 0.2098 -0.1051 0.1297 -0.2542 0.4321 -0.0292 0.1153 -0.2860 -0.0085 -0.3478 0.3769 -0.1938 0.2486 stats =
0.9846 47.9654 0.0047 0.0123 故
回
归
模
型
为
:
y13.984913.1920x12.4228x20.0754x30.1897x4,
此外,由stats的值可知R2P0.0047。
0.9846,F47.9654,
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
%%%残差分析,作残差图 rcoplot(r,rint)
图8-7
从残差图可以看出,除第一和第六个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点.第一和第六个数据可视为异常点,将其去掉后重新拟合可得新的回归模型.
三、非线性回归
非线性回归模型的一般形式为
x(x1,x2,,xm),(1,2,,k),其中fyf(x,),
对回归系数是非线性的.
非线性回归包括如下几个用于计算回归参数、预测输出、置信区间以及输出交互图像的函数.
1. 非线性最小二乘参数估计
对于非线性方程的的系数估计通常采用最小二乘估计,又叫做非线性最小二乘回归.在Matlab中采用nlinfit实现,其调用格式如下:
beta=nlinfit(x,y,fun,beta0)
返回非线性回归方程系数的最小二乘估计值.非线性方程由fun给定,fun为用户提供形如
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
yf(beta,x)的函数,beta为待估系数;beta0为回归
系数的初值.
[beta,r,J]=nlinfit(x,y,fun,beta0)
返回回归系数beta、残差r、Jacobi矩阵J. 2. 最小二乘估计参数的置信区间
求非线性最小二乘估计的系数的置信区间用nlparci计算。其输入为nlinfit函数的输出beta,r,J。函数具体调用格式如下:
ci=nlparci(beta,r,J)
返回系数beta的95%置信区间. ci=nlparci(beta,r,J,alpha)
返回系数beta的100(1-alpha)%置信区间.
3. 最小二乘估计模型的预测输出及其置信区间 非线性最小二乘估计模型的预测输出及其置信区间用nlpredci计算.函数具体调用格式如下:
[ypred,delta]=nlpredci(fun,inputs,beta,r,J)
返回模型在对应inputs处的输出预测值ypred,给出95%的置信区间[ypred-delta, ypred+delta];
[ypred,delta]=nlpredci(fun,inputs,beta,r,J,alpha) 返回模型在对应inputs处的输出预测值ypred,
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
给出100(1-alpha)%的置信区间[ypred-delta, ypred+delta].
4. 非线性拟合和预测的交互图形工具
nlintool是非线性拟合和预测的交互图形工具.函数具体调用格式如下:
nlintool(x,y,fun,beta0)
返回x,y的非线性最小二乘法的曲线拟合图,并画出95%的置信区间;
nlintool(x,y,fun,beta0,alpha)
给出曲线拟合图及100(1-alpha)%的置信区间; nlintool(x,y,fun,beta0,alpha,’xname’,’yname’) 给出曲线拟合图及100(1-alpha)%的置信区间,标出x,y变量名称.
例4 在化工生产中获得的氯气的级分y随生产时间x下降,假定在x8时,y与x之间有如下形式的非线性模型:
现收集43组数据,如下所示.要求利用该数据求a,b的值以及它们95%的置信区间.并画出拟合曲线.此处设a,b的初值分别为0.30,0.02.
x:8.00,8.00,10.00,10.00,10.00,10.00,12.00,12.00,12.00,14.00
,14.00,14.00,16.00,16.00,16.00,18.00,18.00,
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
20.00,20.00,20.00,20.00,22.00,22.00,24.00,24.00,24.00,26.00,26.00,26.00,28.00,28.00,30.00,30.00,30.00, 32.00,32.00,34.00,36.00,36.00,38.00,38.00,40.00,42.00
y:0.49,0.49,0.48,0.47,0.48,0.47,0.46,0.46,0.45,0.43,0.45,0.43
,0.43,0.44,0.43,0.43,0.46,0.42,0.42,0.43,0.41, 0.41,0.40,0.42,0.40,0.40,0.41,0.40,0.41,0.41,0.40,0.40,0.40,0.38,0.41,0.40,0.40,0.41,0.38,0.40,0.40,0.39,0.39
解 首先编写函数fun,表示出需要拟合模型的函数形式.
%%%拟合模型的函数形式 function y=fun(beta0,x) a=beta0(1); b=beta0(2);
y=a+(0.49-a)*exp(-b*(x-8));
编写程序对数据进行最小二乘拟合和处理 %%%输入数据
x=[8.00 8.00 10.00 10.00 10.00 10.00 12.00 12.00 12.00 14.00 14.00 14.00 16.00 16.00 16.00 18.00 18.00 20.00 20.00 20.00 20.00 22.00 22.00 24.00 24.00 24.00 26.00 26.00 26.00 28.00 28.00 30.00 30.00 30.00 32.00 32.00
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
34.00 36.00 36.00 38.00 38.00 40.00 42.00];
y=[0.49 0.49 0.48 0.47 0.48 0.47 0.46 0.46 0.45 0.43 0.45 0.43 0.43 0.44 0.43 0.43 0.46 0.42 0.42 0.43 0.41 0.41 0.40 0.42 0.40 0.40 0.41 0.40 0.41 0.41 0.40 0.40 0.40 0.38 0.41 0.40 0.40 0.41 0.38 0.40 0.40 0.39 0.39];
beta0=[0.30 0.02]; %%%系数初值
[beta,r,J]=nlinfit(x,y,@fun,beta0); %%%系数最小二乘估计值为beta
beta
ci=nlparci(beta,r,J); %%%求95%置信区间
nlintool(x,y,@fun,beta0,0.05,'生产时间x','氯气级分y'); %%%显示拟合结果和置信区间
得如下结果: beta=
0.3896 0.1011 ci=
0.3805 0.3988 0.0771 0.1251
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
可知a与b的最小二乘估计值分别为0.3896和0.1011,它们95%的置信区间分别为[0.3805,0.3988]和[0.0771,0.1251].所以用最小二乘法对该模型系数进行估计,最终的模型表达式为
最终得到的拟合图如下所示.
图8-8
在图8-8中,中间的实线为拟合曲线,两侧的虚线标出其95%置信区间.
四、逐步回归
实际问题中影响因变量的因素可能很多,希望从中挑选出影响显著的自变量来建立回归模型.这就涉及到了变量选择的问题.逐步回归就是一种从众多变量中有效地选择重要变量的方法.
逐步回归的命令是stepwise,它提供了一个交互式画面,通过此工具可以自由地选择变量,进行统计分析,其调用格式为stepwise(x,y,inmodel,alpha).
其中x表示自变量数据,nm阶矩阵;y表示因变量数据,n1阶矩阵;inmodel表示矩阵的列数指标(缺省时设定为全部自变量);alpha表示显著性水平(缺省时为0.5).
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
运行stepwise命令时产生三个图形窗口:Stepwise Plot,Stepwise Table,Stepwise History.
在Stepwise Plot窗口,虚线表示该变量的拟合系数与0无显著差异,实线表示有显著差异,红色线表示从模型中移去的变量,蓝色线表示存在模型中的变量,单击一条会改变其状态.
Stepwise Table窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系数(R-square)、F值、与F对应的概率
P.
例5 水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、x4有关,今测得一组数据如下,试用逐步回归法确定一个线性模型.
序号 x1 x2 x3 x4 y 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4 解 在Matlab中实现逐步回归的具体代码如下: %%%数据输入:
x1=[7 1 11 11 7 11 3 1 2 21 1 11 10]';
x2=[26 29 56 31 52 55 71 31 54 47 40 66 68]'; x3=[6 15 8 8 6 9 17 22 18 4 23 9 8]';
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
x4=[60 52 20 47 33 22 6 44 22 26 34 12 12]'; x=[x1 x2 x3 x4];
y=[78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4]';
%%%逐步回归
%%%先在初始模型中取全部自变量: stepwise(x,y)
得图8-9所示的结果.
图8-9
从图8-9中可以看出,x3、x4的P值较大,其对模型影响不显著.
若要移去x3、x4两个变量,在Matlab中输入: stepwise(x,y,[1,2]) 得图8-10所示的结果.
图8-10
移去变量x3和x4后模型具有显著性,虽然剩余标准差(RMSE)没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好.
对变量y和x1、x2作线性回归,在Matlab中输入:
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
X=[ones(13,1) x1 x2]; b=regress(y,X)
得结果:b= 52.5773 1.4683 0.6623
故最终模型为:y=52.5773+1.4683x1+0.6623x2.
讨论题
1. 根据经验,在人的身高相等的情况下,血压的收缩压y与体重x1,年龄x2有关,现在收集了13个男子的有关数据,如下表所示,试建立y与x1、x2的回归模型.
x1 x2 y 76.0 50 120 91.5 20 141 85.5 20 124 82.5 30 126 79.0 30 117 80.5 50 125 74.5 60 123 79.0 50 125 85.0 40 132 76.5 55 123 82.0 40 132 95.0 40 155 92.5 20 147 2. 下表为1980-1991年间以1987年不变价计算的美国个人消费支出y与美国国内生产总值x的数据(单位:10亿美元).
1)在直角坐标系下,作x与y的散点图,并判断y与x是否存在线性相关关系?
2)试求y与x的一元线性回归方程.
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
3)对所得的回归方程作显著性检验(0.05). 4)若x0=4500,试求对应的y0的点预测和包含概率为95%的区间预测.
年份 1980 1981 1982 1983 1984 1985 y 2447.1 2476.9 2503.7 2619.4 2746.1 2865.8 x 3776.3 3843.1 3760.3 3906.6 4148.5 4279.8 年份 1986 1987 1988 1989 1990 1991 y 2969.1 3052.2 3162.4 3223.3 3260.4 3240.8 x 4404.5 4539.9 4718.6 4838.0 4877.5 4821.0 3. 某地人事部门研究中学教师的薪金与他们的资历、性别、教育程度、及培训情况等因素之间的关系,要建立一个数学模型,分析人事策略的合理性,特别是考察女教师是否受到不公正的待遇,以及她们的婚姻状况是否会影响收入.为此,从当地教师中随机选中3414位进行观察,然后从中保留了90个观察对象,得到关键数据如下表.
Z 998 1015 1028 1250 1028 1028 1018 1072 1290 1204 1352 1204 x1 7 14 18 19 19 19 27 30 30 30 31 31 x2 0 1 1 1 0 0 0 0 1 0 0 0 x3 0 1 1 1 1 0 0 0 1 1 1 0 x4 0 0 0 0 0 0 0 0 0 0 2 0 x5 0 0 1 0 1 0 0 0 0 0 0 1 x6 0 0 0 0 0 0 0 0 0 0 1 0 x7 0 0 0 0 0 0 1 0 0 0 0 0 2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
1104 1118 1127 1259 1127 1127 1095 1113 1462 1182 1404 1182 1594 1459 1237 Z 1237 1496 1424 1424 1347 1343 1310 1814 1534 1430 1439 1946 2216 1834 1416 2052 2087 2264 2201 2992 1695 1792 1690 1827 2604 1720 1720 38 41 42 42 42 42 47 52 52 54 54 54 55 66 67 x1 67 75 78 79 91 92 94 103 103 103 111 114 114 114 117 139 140 154 158 159 162 167 173 174 175 199 209 0 1 0 1 1 0 0 0 0 1 0 0 1 0 1 x2 0 0 1 0 1 0 0 0 0 1 1 1 1 1 0 1 0 0 1 1 0 1 0 0 1 0 0 0 1 0 1 1 0 0 0 1 1 0 0 1 0 1 x3 1 1 1 1 1 0 0 0 0 1 1 1 1 1 0 1 0 0 1 1 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 2 0 0 0 2 0 0 x4 0 0 0 0 0 0 0 2 0 0 0 3 4 4 0 0 2 2 4 5 0 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 0 1 1 1 x5 1 0 1 0 1 0 1 1 0 0 1 1 1 1 0 1 1 1 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 x6 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 x7 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0 0 1 1 0 0 0 2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
2159 1852 2104 1852 1852 2210 2266 2027 1852 1852 1995 2616 2324 1852 2054 Z 2617 1948 1720 2604 1852 1942 2027 1942 1720 2048 2334 1720 1942 2117 2742 2740 1942 2266 2436 2067 2000 209 210 213 220 222 222 223 223 227 232 235 245 253 257 260 x1 284 287 290 308 39 319 325 326 329 337 346 355 357 380 387 403 406 437 453 458 464 0 0 1 0 0 1 0 1 0 0 0 1 1 0 0 x2 1 1 0 1 1 0 1 1 1 0 1 0 1 1 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 0 0 0 1 1 1 0 x3 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 4 0 0 0 0 0 0 0 0 0 0 3 0 0 0 x4 3 0 0 2 0 0 0 0 0 0 2 0 0 0 2 2 0 0 0 0 2 1 0 1 0 0 0 0 0 1 0 0 1 1 0 0 x5 1 0 0 1 1 1 0 1 1 0 1 0 0 0 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 x6 1 0 0 1 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 1 0 x7 0 0 1 0 1 0 0 0 0 0 1 1 0 1 1 1 0 0 0 0 0 表中符号介绍如下:
Z-月薪(元);x1-工作时间(月);x2=1-男性,x2=0-女性;x3=1-男性或单身女性,x3=0-已婚女
2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
性;x4-学历(取值0-6,值越大表示学历越高);x5=1-受雇于重点中学,x5=0-其它;x6=1-受过培训的毕业生,x6=0-未受过培训的毕业生或受过培训的肄业生;x7=1-已两年以上未从事教学工作,x7=0-其它。注意组合(x2,x3)=(1,1),(0,1),(0,0)的含义.
进行变量选择,建立变量x1-x7与Z的回归模型(不一定包括每个自变量),说明教师的薪金与哪些变量的关系密切,是否存在性别和婚姻状况上的差异.为了数据处理上的方便,建议对薪金取对数后作为因变量.
4. 热敏电阻器的电阻y与温度x之间的关系模型为
试根据下表中的数据给出参数1,2,3的估计.
x 50 55 60 65 y 34780 28610 23650 19630 x 70 75 80 85 y 16370 13720 11540 9744 x 90 95 y 8266 7030 x 110 115 120 125 y 4427 3820 3307 2872 100 6005 105 5147 5. 财政收入预测问题:财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关.下表列出了1952-1981年的原始数据,试构造预测模型.
年份 国民收入(亿元) 工业总产值(亿元) 农业总产值(亿元) 总人口 (万人) 就业人口(万人) 固定资产投资(亿元) 财政收入(亿元) 2021.03.09 欧阳法创编
2021.03.09
2021.03.09 欧阳法创编
2021.03.09
1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 598 586 707 737 825 837 1028 1114 1079 757 677 779 943 1152 1322 1249 1187 1372 1638 1780 1833 1978 1993 2121 2052 2189 2475 2702 2791 2927 349 455 520 558 715 798 1235 1681 1870 1156 964 1046 1250 1581 1911 1647 1565 2101 2747 3156 3365 3684 3696 4254 4309 4925 5590 6065 6592 6862 461 475 491 529 556 575 598 509 444 434 461 514 584 632 687 697 680 688 767 790 789 855 891 932 955 971 1058 1150 1194 1273 57482 58796 60266 61465 62828 64653 65994 67207 66207 65859 67295 69172 70499 72538 74542 76368 78534 80671 82992 85229 87177 89211 90859 92421 93717 94974 96259 97542 98705 100072 20729 21364 21832 22328 23018 23711 26600 26173 25880 25590 25110 26640 27736 28670 29805 30814 31915 33225 34432 35620 35854 36652 37369 38168 38834 39377 39856 40581 41896 73280 44 89 97 98 150 139 256 338 380 138 66 85 129 175 212 156 127 207 312 355 354 374 393 462 443 454 550 564 568 496 184 216 248 254 268 286 357 444 506 271 230 266 323 393 466 352 303 447 564 638 658 691 655 692 657 723 922 890 826 810 6. 水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、x4有关,今测得一组数据如下,试用逐步回归法确定一个线性模型.
序号 x1 x2 x3 x4 y 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 时间:2021.03.09 创作:欧阳法 2021.03.09 欧阳法创编
2021.03.09
因篇幅问题不能全部显示,请点此查看更多更全内容