第三节 直线回归方程
作者:徐荣祥 出书社:中国科学手艺出书社 刊行日期:2009年7月
一、直线回归方程的看法
所谓回归,是说当一种观象(y)受另一种征象(x)的影响,致使(y)随着征象(x)的变换而有纪律的变换时,这种协同变异的关系在统计学中称之为回归。回归剖析是当研究两种事物间的相互关系时,形貌其中一种事物依存另一种事物变换的纪律。其表达式为:
式中y为预计值;α为常数,也称为截距,即当x即是零时在回归直线轴上的交点;b为回归系数,它是回归直线的斜率,其意义是每当x变换一个单位,则y随之变换b个单位。
直线回归剖析的目的是求出一条能确切反应本资料的回归变换纪律的直线方程式,以通过此式由x值预计y值。一样平常要求回归方程能知足下述条件:即从回归方程推算出的y值与现实y值之差的平方和[∑(y-y)]2是最小值。确立直线回归方程式的要害是求出回归系数b和截距α,它们的盘算公式为:
二、求直线回归方程的基本要领
(一)小样本的盘算要领
当原始数据未几(n<40)时,可直接按实测数据X、Y,求∑X、∑Χ2、∑Y、∑Y2及∑XY。代入下列公式(396)、(397) 、(398) 、(399),求α、b和直线回归方程。
式中Ixx=∑(x-x)(y-y)(离均差积和)
Ixx=∑(x-X)2(离均差平方和)
示例393某研究职员视察胃肠营养胶囊的营养价值,用明确鼠做试验,对每只明确鼠在视察时代胃肠营养胶囊的用量(g)和体重增添量(g)汇入表(394)中,凭证原始资料试作直线回归剖析。
【解题办法】
1先列出直线回归剖析盘算表,求基础数值(表395):
2凭证表395中的基础数值盘算x、y的均数(x、y)、离均差平方和(Ixx、Iyy)、离均差积和(Ixy)。
3凭证公式(396)、(397) 、(398),求b、α和回归方程。
4按求得的直线回归方程,在X值规模内恣意取两点(x1y1),(x22),相连即得回归直线。
(二)大样本的求法
当原始资料较量多时,接小样本处置惩罚公式盘算其事情量相当的大,可按直线相关系数的简捷要领先绘制双变量频数表,然后再凭证表中的基础数值划分盘算x、y的均数(x、y)、离均差平方和(Ixx、Iyy)、离均差积和(Ixy)。现以示例392为例,试用简捷要领盘算回归方程。
示例392样本数n=40,组距ix=02,组距iy=10,(∑fxdx)=43,∑fxd2x=139,∑fYdY=-3,∑fyd2y=79,∑fdXdY=39。
【解题办法】
1盘算均数:本例假定均数(取组中值,x0为“~20”组的组中值)。
2离均差的平方和:
3离均差积和:
4按公式(396),求回归系数b:
直线回归方程:=2932+2276x
答:其直线回归方程为=2932+2276x。
三、回归系数的显著性磨练
回归系数显著性磨练的意义与相关系数的显著性磨练的意义相同,其回归系数(b)也是因抽样研究得来的,纵然严酷按随机抽样,回归系数也保存抽样误差的问题,也应举行显著性磨练。当y变量听从正态漫衍时,回归系数的显著性磨练可以用t磨练,也可以用方差剖析要领求得。本节仅先容t磨练要领。
用t磨练要领磨练回归系数(b)是否显著,先凭证以下公式划分盘算sy、x和回归系数的标准误(sb),然后盘算t值。其公式划分为 (3910)、(3911) 、(3912):
当求得t值后,凭证自由度(n-2)查t值表,主要目的是与P=005相当的临界值[t(n′)005]举行较量。若是求得的t值< t(n′)005,则P>005,回归系数无显著意义;相反,若是求得的t值> t(n′)005,则P<005,回归系数有显著意义;若是求得的t值> t(n′)001,则P<001,回归系数有很是显著意义。
现以例393为例,磨练其回归系数有无显著意义。
由于已知Iyy=42341, Ixx=759064, Ixy=168432,n=10, b=02219,将以上数据划分代入公式(3910)、(3911)、(3912),得:
查t界值表(附表4):n′=8(10-2)时,t(8)001=3355。本例t=77587,p<001, 回归系数有很是显著意义。
四、相关和回归剖析应注重的事项
1 明确相关与回归剖析的实质内容
相关系数说明两变量间关系的亲近水平,回归方程说明两变量间的数目关系,两者说明的问题差别,之间有相关关系。因此,若是回归系数显著性磨练有显著性的话,相关系数也一定是显著的,反之亦然。
2准确明确相关剖析的作用
相关剖析只是以相关系数来形貌两个变量间相互关系的亲近水平和偏向,并不可剖析两事物或征象间保存联系的实质。并且相关并纷歧定就是因果关系,切不可纯粹依赖相关系数或回归系数的显著性证实因果关系之保存。要证实两事物间的因果关系,必需凭藉专业知识从理论上加以剖析。可是,当事物间的因果关系未被熟悉前,相关剖析可为理论研究提供线索。
3不要把毫无关联的两个事物或征象用来作相关或回归剖析,不然是没有意义的。另外,相关剖析只说明相关。
4不要把相关显著性巨细误解为相关水平的巨细。相关系数是说明两事物间亲近水平的, r的绝对值越靠近于1,相关越亲近;越靠近0,则相关水平越松散。相关系数的显著性磨练是说明由抽样误差引起这样大的r值的可能性有多大。P>005说明由抽样误差引起这样大的r值的可能性大于5%,因此而不扫除它抽自于无相关的总体。只有P≤005, r才有意义。
5在回归剖析中,由x推算y或由y推算x ,其回归方程差别,不可混用。推算公式如下:
6相关与回归的区别和联系
相关体现两变量间的相互关系是双偏向的。而回归则体现y随x而转变,这种关系是单偏向的。医学资料中的有些资料用相关体现较相宜,好比兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。但有些资料用相关和回归都不相宜,此时须视研究需要而定。就一样平常盘算程序来说,是先求出相关系数r并对其举行假设磨练,若是r显著并有举行回归剖析之须要,再建设回归方程。
7适合作相关和回归剖析的资料通常有两种资料
(1)一个变量x是选定的,另一个变量y是从正态漫衍的总体中随机抽取的,宜作回归剖析。
(2)两变量x、y(或x1、x2)都是从正态漫衍的总体中随机抽取的,即是正态双变量中的随机样本。这时,若需要由一个变量推算另一个变量可作回归剖析;若只需说明两变量间的相互关系可作相关剖析。若是变量(一个或两个)呈显着偏态时,须经由适当的变量代换(如对数代换等),使资料接受正态漫衍后再做相关与回归剖析,或者接纳秩相关法。