上一篇:[[SGD]] 下一篇:[[]]
从矩阵计算和机器学习的角度,**最小二乘法(Least Squares)**的目标是通过最小化预测值与真实值之间的平方误差,来找到最佳的参数 $w$ 和 $b$。
给定数据矩阵:
损失函数(均方误差)为:
$$ L(w, b) = | Y - \hat{Y} |^2 = | Y - Xw - b |^2 $$
为简化矩阵表示,引入一列全为1的向量 $\mathbf{1} \in \mathbb{R}^{n \times 1}$,并将 $b$ 看作额外权重:
$$ X’ = [X \quad \mathbf{1}] \in \mathbb{R}^{n \times (d+1)}, \quad w’ = \begin{bmatrix} w \ b \end{bmatrix} \in \mathbb{R}^{(d+1) \times 1} $$
于是模型变为:
$$ \hat{Y} = X’w' $$
损失函数变为:
$$ L(w’) = |Y - X’w’|^2 $$
令损失函数对 $w’$ 求导,并设导数为0,得到最小化点:
$$ L(w’) = (Y - X’w’)^T(Y - X’w’) = Y^TY - 2w’^T X’^T Y + w’^T X’^T X’ w' $$
对 $w’$ 求导:
$$ \frac{\partial L}{\partial w’} = -2X’^T Y + 2X’^T X’ w' $$
令导数为0,得到正规方程(Normal Equation):
$$ X’^T X’ w’ = X’^T Y $$
只要 $X’^T X’$ 可逆,解为:
$$ w’ = (X’^T X’)^{-1} X’^T Y $$
从解出的 $w’$ 向量中:
$$ w = w’{1:d}, \quad b = w’{d+1} $$
最小二乘法的几何意义是:在所有可能的 $Xw + b$ 线性模型中,选择使预测值最接近 $Y$ 的那个,等价于将 $Y$ 投影到 $X’$ 所张成的列空间中。
上一篇:[[SGD]] 下一篇:[[]]