最小二乘法介绍 @
最小二乘法的目标是找到一组参数值,使得观测值 $y_i$ 与预测值 $\hat{y}_i=\beta_0+\beta_1x_i$ 之间的误差平方和最小。通过对误差平方和关于 $\beta_0$ 和 $\beta_1$ 求偏导数并令其为零,可以得到求解参数的公式。
原理 @
假设我们有一系列的观测数据点$(x_i, y_i)$,其中$i = 1, 2, \cdots, n$,我们希望找到一个函数$y = f(x)$来尽可能准确地描述这些数据点之间的关系。对于线性回归模型$y = \beta_0 + \beta_1x$(以一元线性回归为例),我们通过最小化误差平方和$S = \sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$来确定参数$\beta_0$和$\beta_1$,其中$\hat{y}_i$是根据模型预测的值。
计算方法 @
一元线性回归 @
对于一元线性回归模型$y = \beta_0 + \beta_1x$,通过对$S$分别关于$\beta_0$和$\beta_1$求偏导数,并令偏导数为零,可以得到以下正规方程组:
$$ \begin{cases} \sum_{i = 1}^{n}(y_i - \beta_0 - \beta_1x_i) = 0 \\ \sum_{i = 1}^{n}(y_i - \beta_0 - \beta_1x_i)x_i = 0 \end{cases} $$解这个方程组就可以得到$\beta_0$和$\beta_1$的估计值。
多元线性回归 @
对于多元线性回归模型$y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p$,同样可以通过最小化误差平方和得到正规方程组。
在矩阵形式下,设$\mathbf{X}$是由自变量组成的设计矩阵,$\mathbf{y}$是因变量向量,$\boldsymbol{\beta}$是回归系数向量,则正规方程组可以表示为$(\mathbf{X}^{T}\mathbf{X})\boldsymbol{\beta}=\mathbf{X}^{T}\mathbf{y}$,通过求解这个方程组得到$\boldsymbol{\beta}$的估计值。
局限性 @
- 对异常值比较敏感,因为误差平方和会放大异常值的影响,可能导致拟合结果受到少数异常点的较大干扰。
- 要求数据满足一定的假设条件,如误差项具有零均值、同方差和不相关等,如果这些假设不满足,最小二乘法的估计结果可能会有偏差,甚至失去有效性。
举例分析 @
以下是一个使用最小二乘法进行一元线性回归的简单例子及详细计算步骤。
假设我们有以下一组数据点:$(1, 2)$,$(2, 4)$,$(3, 5)$,$(4, 7)$,$(5, 8)$,我们要通过最小二乘法找到一条直线$y = \beta_0 + \beta_1x$来拟合这些数据。
-
计算相关统计量:
-
首先,计算$x$的均值$\bar{x}$和$y$的均值$\bar{y}$。
- $n = 5$(数据点的数量)。
- $\bar{x}=\frac{1 + 2 + 3 + 4 + 5}{5}=3$。
- $\bar{y}=\frac{2 + 4 + 5 + 7 + 8}{5}=5.2$。
-
然后,计算$x$与$\bar{x}$、$y$与$\bar{y}$的偏差乘积之和$\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})$以及$x$与$\bar{x}$的偏差平方和$\sum_{i = 1}^{n}(x_i - \bar{x})^2$。
- $\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})=(1 - 3)\times(2 - 5.2)+(2 - 3)\times(4 - 5.2)+(3 - 3)\times(5 - 5.2)+(4 - 3)\times(7 - 5.2)+(5 - 3)\times(8 - 5.2)=14$
- $\sum_{i = 1}^{n}(x_i - \bar{x})^2=(1 - 3)^2+(2 - 3)^2+(3 - 3)^2+(4 - 3)^2+(5 - 3)^2=10$
-
-
计算回归系数:
- 根据最小二乘法的公式,$\beta_1=\frac{\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}=\frac{14}{10}=1.4$。
- 再计算$\beta_0$,$\beta_0=\bar{y}-\beta_1\bar{x}=5.2 - 1.4\times3=1$。
所以,通过最小二乘法得到的拟合直线方程为$y = 1 + 1.4x$。