没有网站如何做adsense重庆要做网站推广
2025/12/26 3:35:08 网站建设 项目流程
没有网站如何做adsense,重庆要做网站推广,免费做电子相册的网站,wordpress wood3主题Day 7: 神经网络基础 - 深度学习的敲门砖导读#xff1a;欢迎来到“60天算法工程师”计划的第二个板块——深度学习基础。在结束了数学基础与传统机器学习的学习后#xff0c;从今天开始#xff0c;我们将正式进入深度学习的世界。 深度学习#xff08;Deep Learning#…Day 7: 神经网络基础 - 深度学习的敲门砖导读欢迎来到“60天算法工程师”计划的第二个板块——深度学习基础。在结束了数学基础与传统机器学习的学习后从今天开始我们将正式进入深度学习的世界。深度学习Deep Learning的核心在于使用多层神经网络来从数据中自动学习表示Representation。今天作为深度学习的第一天我们将剥开复杂的网络结构外衣回归本源探讨神经网络最基础的构建模块感知机、多层网络、激活函数、损失函数以及支撑这一切训练的基石——反向传播算法。1. 从感知机到多层网络 (Perceptron to MLP)1.1 感知机 (Perceptron)感知机是神经网络的鼻祖由 Frank Rosenblatt 在 1957 年提出。它是一个简单的线性二分类模型。数学公式非常直观yf(wTxb) y f(\mathbf{w}^T \mathbf{x} b)yf(wTxb)其中fff是阶跃函数Step Function。局限性感知机最大的问题是无法解决线性不可分问题最著名的例子就是“异或”XOR问题。这导致了神经网络研究的第一次寒冬。1.2 多层感知机 (Multi-Layer Perceptron, MLP)为了解决非线性问题引入了隐藏层Hidden Layer和非线性激活函数。隐藏层将输入空间映射到高维特征空间使其线性可分。非线性如果只有多层线性变换无论多少层叠加最终等效于单层线性变换矩阵乘法的结合律。激活函数是赋予神经网络非线性能力的关键。万能逼近定理 (Universal Approximation Theorem)一个包含足够多神经元的单隐层前馈神经网络可以以任意精度逼近任意连续函数。2. 激活函数 (Activation Functions)激活函数决定了神经元是否被“激活”。现代深度学习对激活函数的选择非常考究。2.1 传统派Sigmoid 与 TanhSigmoid:σ(x)11e−x\sigma(x) \frac{1}{1e^{-x}}σ(x)1e−x1​输出(0,1)(0, 1)(0,1)。缺点易导致梯度消失导数最大值仅0.25输出不是零中心Zero-centered指数计算昂贵。Tanh:tanh⁡(x)ex−e−xexe−x\tanh(x) \frac{e^x - e^{-x}}{e^x e^{-x}}tanh(x)exe−xex−e−x​输出(−1,1)(-1, 1)(−1,1)。优点零中心。缺点依然存在梯度消失问题。2.2 现代派ReLU 家族ReLU (Rectified Linear Unit):f(x)max⁡(0,x)f(x) \max(0, x)f(x)max(0,x)优点计算简单正区间梯度为1缓解梯度消失带来稀疏性。缺点Dead ReLU问题负区间梯度为0神经元可能永久“死亡”。Leaky ReLU / PReLU: 在负区间给予一个小的斜率如 0.01解决 Dead ReLU。2.3 前沿派GELU 与 Swish现代大模型如 BERT, GPT, EfficientNet常用的激活函数。Swish:f(x)x⋅σ(βx)f(x) x \cdot \sigma(\beta x)f(x)x⋅σ(βx)由 Google 搜索得出具有平滑、非单调特性。GELU (Gaussian Error Linear Unit):xΦ(x)x \Phi(x)xΦ(x)在 BERT 中被普及。它不仅仅是激活还包含随机正则化的思想Dropout 的期望。特点在x0x0x0附近平滑弯曲允许小的负值。激活函数适用场景备注Sigmoid二分类输出层隐藏层基本不用ReLUCNN, 浅层 MLP默认首选高效GELUTransformer (BERT/GPT)大模型标配性能更优3. 损失函数设计 (Loss Functions)损失函数衡量模型预测值与真实值之间的差距是优化的“指路明灯”。3.1 回归任务MSE (L2 Loss):1N∑(y−y^)2\frac{1}{N}\sum (y - \hat{y})^2N1​∑(y−y^​)2。对异常值敏感。MAE (L1 Loss):1N∑∣y−y^∣\frac{1}{N}\sum |y - \hat{y}|N1​∑∣y−y^​∣。鲁棒性强但零点不可导。Huber Loss: 结合了 MSE 和 MAE 的优点。3.2 分类任务交叉熵损失 (Cross Entropy Loss):L−∑iyilog⁡(y^i) L - \sum_{i} y_i \log(\hat{y}_i)L−i∑​yi​log(y^​i​)本质是衡量两个概率分布真实分布与预测分布之间的差异KL散度。二分类Binary Cross Entropy (BCE)。多分类Categorical Cross Entropy。3.3 特殊场景Focal Loss: 用于解决类别极度不平衡问题如目标检测。通过降低易分类样本的权重让模型专注于难分类样本。FL(pt)−αt(1−pt)γlog⁡(pt) FL(p_t) -\alpha_t (1-p_t)^\gamma \log(p_t)FL(pt​)−αt​(1−pt​)γlog(pt​)4. 反向传播与计算图 (Backpropagation Computational Graph)这是深度学习能够训练的核心机制。4.1 计算图 (Computational Graph)将神经网络的计算过程表示为有向无环图DAG。节点操作加法、乘法、激活函数。边数据Tensor。4.2 链式法则 (Chain Rule)反向传播本质上就是链式法则的递归应用。假设yf(u),ug(x)y f(u), u g(x)yf(u),ug(x)则∂y∂x∂y∂u⋅∂u∂x \frac{\partial y}{\partial x} \frac{\partial y}{\partial u} \cdot \frac{\partial u}{\partial x}∂x∂y​∂u∂y​⋅∂x∂u​4.3 自动微分 (Autograd)现代框架PyTorch/TensorFlow不需要手动推导梯度。前向传播 (Forward)计算输出并建立计算图缓存中间变量。反向传播 (Backward)从 Loss 出发沿着图反向遍历计算每个节点的梯度。5. 代码实践PyTorch 实现一个简单的 MLP我们用 PyTorch 实现一个简单的 MLP 来拟合非线性数据模拟 XOR 问题或简单的函数拟合。importtorchimporttorch.nnasnnimporttorch.optimasoptimimportmatplotlib.pyplotasplt# 1. 准备数据 (模拟一个非线性关系 y x^2)xtorch.unsqueeze(torch.linspace(-1,1,200),dim1)# shape(200, 1)yx.pow(2)0.1*torch.normal(torch.zeros(*x.size()))# 加入噪声# 2. 定义 MLP 网络classMLP(nn.Module):def__init__(self):super(MLP,self).__init__()# 隐藏层输入1维 - 隐藏10维self.hiddennn.Linear(1,10)# 激活函数使用 ReLUself.actnn.ReLU()# 输出层隐藏10维 - 输出1维self.outputnn.Linear(10,1)defforward(self,x):xself.hidden(x)xself.act(x)xself.output(x)returnx netMLP()print(net)# 3. 定义损失函数和优化器criterionnn.MSELoss()optimizeroptim.SGD(net.parameters(),lr0.1)# 4. 训练循环fortinrange(2000):predictionnet(x)# 前向传播losscriterion(prediction,y)# 计算 Lossoptimizer.zero_grad()# 梯度清零loss.backward()# 反向传播 (计算梯度)optimizer.step()# 更新参数ift%2000:print(fStep{t}, Loss:{loss.item():.4f})# 5. 简单验证 (不可视化模式下)print(fFinal Loss:{loss.item():.4f})# 我们可以看到 Loss 随着训练逐步下降说明网络学到了 yx^2 的非线性关系关键点解析nn.Module: 所有网络的基类。zero_grad(): 必须步骤。因为 PyTorch 默认会累积梯度便于 RNN 等操作所以在每一轮更新前需清空。backward(): 自动微分的魔法入口。6. 总结与下期预告今天我们通过 MLP、激活函数和反向传播推开了深度学习的大门。神经网络不再是神秘的黑盒而是一堆线性变换与非线性激活的组合在微积分的指导下不断优化。核心考点总结为什么需要非线性激活函数为了逼近复杂函数Sigmoid 为什么会梯度消失导数最大值小且两端饱和GELU 相比 ReLU 好在哪里平滑性概率解释交叉熵与 MSE 的区别分类 vs 回归概率分布匹配 vs 距离度量下期预告模型建好了怎么训练得又快又好Day 8 我们将深入探讨优化器SGD, AdamW与 训练技巧BatchNorm, Dropout, LR Schedule这些是炼丹师必备的调参内功。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询