深度学习：梯度下降和反向传播 │ 平常心

2024-10-13

算法模型是怎么“学会”的？

梯度下降和反向传播又是怎么在背后起作用的？

咱们可以从大局入手，再细化机制讲解

🧠 一、模型学习的总体流程

以神经网络为例

费曼技巧讲解：

假设你正在学习打篮球，一开始你很不熟悉，投篮总是偏左、偏右、或者不进，你想要进步，但是每次投篮你都不能看到自己做错了什么

然后，有一个教练（就是你的模型），他告诉你：“你投得太偏左了，试着往右投一点” 他每次看到你的投篮，都会给你一些反馈，告诉你哪里出错了，如何调整

它的本质是：把损失函数对模型参数的偏导数一个一个链式地传回去

比如：你有个三层网络：输入 → 隐藏层 → 输出

每个神经元的输出是经过一个激活函数的线性变换

那么反向传播要干嘛？

通俗类比：反向传播就像是一份考试答错了，老师从结果往前分析你哪一题错了，错的原因是什么，然后告诉你每道题怎么改进（即参数怎么调）

费曼技巧讲解：

反向传播就像是教练分析你每一次投篮时，看看你是在哪个环节出问题：

教练会一步一步追溯你的错误（从结果到过程），找出是哪个动作的偏差导致了最终的失败

具体步骤：

所以，反向传播就是通过一步步反馈，追溯你哪里做错了，在哪些环节需要调整

模型知道每个参数怎么改之后，还要决定“往哪个方向”“走多远”，这就是梯度下降的职责

用导数表示“某个参数变动时，损失函数怎么变”
参数更新：[w = w - \eta \cdot \frac{\partial \text{Loss}}{\partial w}] 其中 ( \eta ) 是学习率

想象你站在山上（损失值高），你想走到山谷底（损失最小）。你用手摸地面，看哪里坡度大，就往下走一步 —— 这就是梯度下降

费曼技巧讲解：

一旦你明白了哪里出错了，梯度下降就是你根据教练的建议开始做出调整：

梯度下降的核心是：你会“调整自己的动作”，让下一次投篮变得更接近成功。每次调整都不会很大（否则你会失控），你逐步改进，最终让自己越来越精准

类比：

环节	作用
反向传播	负责计算“每个参数改一点会对误差有多大”（求导）
梯度下降	负责“根据这个导数，决定参数往哪里动”

费曼技巧讲解：

如何改进？

总结：

通过反复的投篮，你逐渐掌握了投篮技巧，每次你有了错误反馈（反向传播），你就根据它去调整自己的动作（梯度下降），每次微调，都让你离完美投篮更近一步

训练数据 → 前向传播 → 得到预测值 → 计算损失
       ↓
反向传播 → 计算各个参数对损失的偏导数
       ↓
梯度下降 → 更新参数，让下次误差更小
       ↓
重复多轮 → 模型越来越会“预测”