Least Squares Method

上一篇:[[SGD]] 下一篇:[[]]

从矩阵计算和机器学习的角度,**最小二乘法(Least Squares)**的目标是通过最小化预测值与真实值之间的平方误差,来找到最佳的参数 $w$ 和 $b$。


一、问题定义

给定数据矩阵:

损失函数(均方误差)为:

$$ L(w, b) = | Y - \hat{Y} |^2 = | Y - Xw - b |^2 $$


二、将偏置项合并到权重中

为简化矩阵表示,引入一列全为1的向量 $\mathbf{1} \in \mathbb{R}^{n \times 1}$,并将 $b$ 看作额外权重:

$$ X’ = [X \quad \mathbf{1}] \in \mathbb{R}^{n \times (d+1)}, \quad w’ = \begin{bmatrix} w \ b \end{bmatrix} \in \mathbb{R}^{(d+1) \times 1} $$

于是模型变为:

$$ \hat{Y} = X’w' $$

损失函数变为:

$$ L(w’) = |Y - X’w’|^2 $$


三、最小化损失函数(解析解)

令损失函数对 $w’$ 求导,并设导数为0,得到最小化点:

$$ L(w’) = (Y - X’w’)^T(Y - X’w’) = Y^TY - 2w’^T X’^T Y + w’^T X’^T X’ w' $$

对 $w’$ 求导:

$$ \frac{\partial L}{\partial w’} = -2X’^T Y + 2X’^T X’ w' $$

令导数为0,得到正规方程(Normal Equation):

$$ X’^T X’ w’ = X’^T Y $$

只要 $X’^T X’$ 可逆,解为:

$$ w’ = (X’^T X’)^{-1} X’^T Y $$


四、分离出 $w$ 和 $b$

从解出的 $w’$ 向量中:

$$ w = w’{1:d}, \quad b = w’{d+1} $$


五、几何解释

最小二乘法的几何意义是:在所有可能的 $Xw + b$ 线性模型中,选择使预测值最接近 $Y$ 的那个,等价于将 $Y$ 投影到 $X’$ 所张成的列空间中。

上一篇:[[SGD]] 下一篇:[[]]