Least Squares Method

上一篇：[[SGD]] 下一篇：[[]]

从矩阵计算和机器学习的角度，**最小二乘法（Least Squares）**的目标是通过最小化预测值与真实值之间的平方误差，来找到最佳的参数 $w$ 和 $b$。

给定数据矩阵：

损失函数（均方误差）为：

$$ L(w, b) = | Y - \hat{Y} |^2 = | Y - Xw - b |^2 $$

为简化矩阵表示，引入一列全为1的向量 $\mathbf{1} \in \mathbb{R}^{n \times 1}$，并将 $b$ 看作额外权重：

$$ X’ = [X \quad \mathbf{1}] \in \mathbb{R}^{n \times (d+1)}, \quad w’ = \begin{bmatrix} w \ b \end{bmatrix} \in \mathbb{R}^{(d+1) \times 1} $$

于是模型变为：

$$ \hat{Y} = X’w' $$

损失函数变为：

$$ L(w’) = |Y - X’w’|^2 $$

令损失函数对 $w’$ 求导，并设导数为0，得到最小化点：

$$ L(w’) = (Y - X’w’)^T(Y - X’w’) = Y^TY - 2w’^T X’^T Y + w’^T X’^T X’ w' $$

对 $w’$ 求导：

$$ \frac{\partial L}{\partial w’} = -2X’^T Y + 2X’^T X’ w' $$

令导数为0，得到正规方程（Normal Equation）：

$$ X’^T X’ w’ = X’^T Y $$

只要 $X’^T X’$ 可逆，解为：

$$ w’ = (X’^T X’)^{-1} X’^T Y $$

从解出的 $w’$ 向量中：

$$ w = w’{1:d}, \quad b = w’{d+1} $$

最小二乘法的几何意义是：在所有可能的 $Xw + b$ 线性模型中，选择使预测值最接近 $Y$ 的那个，等价于将 $Y$ 投影到 $X’$ 所张成的列空间中。

上一篇：[[SGD]] 下一篇：[[]]