2025/12/27 18:59:13
网站建设
项目流程
网站上的图文介绍怎么做,京津冀协同发展心得体会,做教育的网站有哪些,网络营销都有哪些方法本周为第二课的第一周内容#xff0c;就像课题名称一样#xff0c;本周更偏向于深度学习实践中出现的问题和概念#xff0c;在有了第一课的机器学习和数学基础后#xff0c;可以说#xff0c;在理解上对本周的内容不会存在什么难度。当然#xff0c;我也会对一些新出现的…本周为第二课的第一周内容就像课题名称一样本周更偏向于深度学习实践中出现的问题和概念在有了第一课的机器学习和数学基础后可以说在理解上对本周的内容不会存在什么难度。当然我也会对一些新出现的概念补充一些基础内容来帮助理解在有之前基础的情况下按部就班即可对本周内容有较好的掌握。1.数据划分我们在第一课的第二周习题部分就已经简单介绍了训练集验证集测试集的概念这里跟随课程进度我们再补充一些细节:Pasted image 20251028101804这便是一些常用的数据划分方式此外在实际应用中我们还应注意一点就是训练集和后二者的来源分布可能不同这也需要我们有相应的措施具体看一下Pasted image 20251028104121这便是在数据划分部分课程补充的一些内容接下来我们引入两个新概念偏差和方差。2.偏差和方差2.1 什么是偏差和方差还是先摆一下概念吧这事好久没做了偏差是指模型的预测值与真实值之间的系统性误差。它衡量的是模型对数据真实规律的拟合能力。方差是指模型对训练数据中随机噪声或小波动的敏感程度。它衡量的是模型在不同训练集上训练时其预测结果的不稳定性。我们用课程里的具体例子来理解一下这两个概念Pasted image 20251028111705依旧是二分类我们先看第一幅图这里我们用一条直线来进行分类很明显出现了很多被错误分类的样本。对于这种不能较好的拟合误差较大的结果就是高偏差。高偏差的基本表现就是欠拟合Underfitting即在训练集和验证集上的表现都很差。如用一条直线去拟合一组明显呈抛物线分布的数据。然后再看第三幅图这里我们非常准确的区分了每一个样本。但是要注意我们观察发现在图中有两个样本偏离了大部分该类样本的位置。对于这种变异的无法正确反应类别规律的样本数据我们就称为噪声。而在第三幅图中我们的模型敏感度较高为了拟合这两个无法正确反应规律的样本反而降低了最终的准确率这种过于敏感以至于拟合噪声导致性能下降的结果就是高方差。高方差的基本表示就是过拟合Overfitting即在训练集上表现很好但在验证集或测试集上表现很差。就像一个非常复杂的神经网络完美记住了训练数据的所有点包括噪声反而会对新数据泛化能力极差。而我们在第二份图标注合适的原因就是因为它做到了拟合大部分数据的规律实现低偏差又没有被噪声干扰偏离正确规律从而实现低方差。低偏差和低方差就是我们追求的模型目标。2.2 从数据分析偏差和方差高低现在我们已经知道了偏差和方差的概念而在实际代码运行中我们则需要从代码的结果即评估指标来判断这两点来继续看猫狗分类的例子我们从代码结果上看看如何分析偏差和方差的高低。Pasted image 20251028140230简单来说偏差高低就看数据在训练集上的表现好不好。方差高低就看数据在训练集和验证集上的差别大不大。此外并不是说只有0.5%或以下才是低方差或者低误差。这涉及到一个基本误差的概念我们人眼判断错误的概率。假设我们人眼只有1%的概率会错误分类猫狗那我们的方差和偏差的高低标准就会以1%为标准判断。基本误差根据任务不同自然也不同。等等好像还有一点不太清晰。我们刚刚引出概念的时候谈到高偏差的表现是欠拟合高方差的表现是过拟合但从二者的定义上来看欠拟合和过拟合不是冲突的吗那为什么高偏差和高方差可以同时存在呢对于这个问题从表面上看高偏差 → 欠拟合模型太简单对规律学得不够高方差 → 过拟合模型太复杂对噪声学得太多似乎一个模型“学的不够”另一个“学的太多”那怎么可能又多又少问题就在于——我们用“表现”来简化这两个概念但其实它们真正反映的是模型表现的两个不同维度。举一个飞镖的例子 每次都扔偏了靶心高偏差而且每次落点都不一样高方差。这就是“又不准又不稳”的情况即 高偏差 高方差同时存在。其次欠拟合和过拟合都可以是局部的我们可能在图像某一区域发生了欠拟合又在另一区域发生了过拟合从这个角度看即 欠拟合 过拟合同时存在。这样便可以比较好的回答这个问题。2.3 如何调整偏差和方差现在我们已经知道如何判断算法的偏差和误差情况了那相应的采取什么样的措施才能调整二者从而实现算法的调优呢总结成一张图如下Pasted image 20251028143646这是一些基本措施。要说明的一点是方差和误差往往是联动的我们的一些措施往往会同时增加或减少二者用什么算法什么样的超参数等等都会产生影响而随着技术的发展才出现了可以单独影响二者之一的新方法技术我们遇到再说。总结来说构建更大更复杂的网络往往能起到更好的效果但实际上在这方面目前并没有数学概念上的“最优解”即可以在所有问题上实现最好效果的架构或算法。这便是为什么我们往往把训练模型称为“炼丹”的原因我们需要一点点一步步地调试来摸索出针对自己的问题效果最好的模型有些时候我们自己也不知道为什么某样组合能达到更好的效果。