回归基础综述

  回归方法有很多种,最常见的是线性回归(又有一元和多元之分)、多项式回归、非线性回归。另外还将简单说明对预测结果的检验方法。

线性回归

  一元线性回归,是最简单最常见的回归模型,类似初中数学中的一元一次方程,它的基本模型如下: \[y = b_0 + b_1*x + u_i\] 我们常见的一元线性回归方程一般没有最后一项,确切的说,我们在实际的应用中也忽略了最后一项。最后一项\(u_i\)的现实意义是:它是指除自变量\(x\)以外所有对因变量\(y\)有影响的其他因素,应用回归预测时,我们假设\(u_i\)是一个均值为零的随机变量,方差为常值,不同\(u_i\)间相互独立,并与自变量\(x\)相互独立。

  多元线性回归,则类似多元一次方程,是指在存在二个或二个以上的自变量,会对因变量\(y\)产生线性影响,线性影响这个说法不知道有没有,意思就是一次关系。多元线性回归模型如下: \[y = b_0 + b_1*x_1 + b_2*x_2 + \cdots + b_n*x_n\] \(x_1 \to x_2\)\(n\)个对因变量\(y\)会产生影响的\(n\)个自变量。二元线性回归和三元线性回归在实际应用中都比较常见,因变量再多的话关系比较复杂但将其简单定义为线性关系,可能在用作预测时,误差会较大。

  线性回归方法在做预测时,我们需要根据已有观测数据得到参数。常见估算参数\(b\)的方法有最小二乘法和最大似然估计法。简单来说最小二乘法就是估算值能很好地拟合已有的观测值,使得估计值和观测值之差的平方和最小。最大似然估计法的依据是:概率最大的事件最可能发生。以一元线性回归为例,说明下,这两个算法是如何来估算\(b_0\)\(b_1\)的。

最小二乘法

  根据最小二乘法的概念,使得估计值和观测值差的平方和最小,即使下面的式子能取到最小值: \[\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-b_0-b_1*x_i)\]   根据微积分中求极值的原理,只需分别对\(b_0\)\(b_1\)求偏导,并使之等于0时\(b_0\)\(b_1\)能取到最小值。可以求得\(b_0\)\(b_1\)的值分别如下: \[b_1=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sum(x-\bar{x})^2}\] \[b_0=\bar{y}-b_1*\bar{x}\]

最大似然估计法

暂略,后期补充!!!。简单线性回归比较常用的是上面最小二乘法。这里不再详细说明最大似然估计法的过程。

多项式回归

  多项式回归,简单来看,就是自变量\(x\)的多项式与因变量\(y\)的关系,其模型如下: \[y=a_0+a_1*x+a_2*x^2+\cdots+a_n*x^n\]

非线性回归

  现实生活中,很多问题并不是简单的线性关系,这种情况下,要选择合适的曲线才能来描述实际问题。上面的多项式回归就是一种非线性回归。介绍几种常见的非线性回归关系。

1.幂函数 \[y=a*x^b\]

2.指数函数与对数函数 \[y=ae^bx\] \[y=a+b\lg(x)\]

3.抛物线函数 \[y=a+bx+cx^2\] 这就是一种多项式回归,二项式,是现实中很常见的一种描述问题的方法模型。

4.S形函数 \[y=\frac{1}{a+be^{-x}}\] 又被称作逻辑函数。

验证方法

下面简单说明对回归结果的验证的几种方法。

1.标准误差

  标准误差是估计值与观测值的平均平方误差,其计算公式为: \[SE=\sqrt{\frac{\sum(y-\hat{y})^2}{n-2}}\]

2.可决系数

  可决系数的取值范围是0~1,是1减去未解释离差与实际方差的比值,\(R^2\)的值越接近1,说明回归直线对观测值的拟合程度越好;反之,\(R^2\)的值越接近0,说明回归直线对观测值的拟合程度越差。其计算公式如下: \[R^2=1-\frac{\sum(y-\hat{y})^2}{\sum(y-\bar{y})^2}=\left(\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^2}\sqrt{\sum(y-\bar{y})^2}}\right)^2\]

3.相关系数

  相关系数的取值范围是-1~1,其实它就是前面可决系数的开方值,区别于可决系数的是正数,相关系数可以有正有负。相关系数接近1或者-1时拟合程度好,接近0时拟合程度不好。其计算公式如下: \[r=\sqrt{1-\frac{\sum(y-\hat{y})^2}{\sum(y-\bar{y})^2}}=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^2}\sqrt{\sum(y-\bar{y})^2}}\]

4.\(F\)检验 \[\sum(y-\bar{y})^2=\sum(\hat{y}-\bar{y})^2+\sum(y-\hat{y})^2\] 上式中,总离差可分解为回归偏差和剩余残差两部分。自由度\(n-1\)也可分解为回归自由度\(1\)和残差自由度\(n-2\)两部分。将回归偏差和剩余残差分别除以它们的自由度后相比即为检验统计量\(F\)。其计算公式如下: \[F=\frac{\sum\frac{(\hat{y}-\bar{y})^2}{1}}{\sum\frac{(y-\hat{y})^2}{n-2}}\] 这里\(F\)服从\(F(1,n-2)\)分布,取显著性水平为\(\alpha\),如果\(F>F_\alpha(1,n-2)\),则表明回归模型显著,否则回归模型不显著,不能用于预测。

  简单说明下自由度(需要查找资料,详细了解!!!),表示一组数据可以“自由表化”的数量的多少。\(n-1\)是通常的计算方法,更准确的讲应该是\(n-x\)\(n\)表示“处理”的数量,\(x\)表示实际需要计算的参数的数量。

5.\(t\)检验

回归系数的显著性检验常用\(t\)值,其计算公式如下: \[t_b=\frac{b}{S_b}\] \[S_b=\frac{SE}{\sqrt{\sum(x-\bar{x})^2}}\] 其中,\(t\)服从自由度为\(n-2\)\(t\)分布,取显著水平\(\alpha\),如果\(|t_b|>t_\alpha\),则回归系数\(b\)显著。

参考:《统计预测和决策》 徐国祥(所有公式都出自这里)