FGE 沿着这些路径保存快照,从而创建快照的集成。
要从快照集成或 FGE 中受益,需要存储多个模型,接着让每个模型做出预测,之后加以平均以得到终预测。因此,我们为集成的额外表现支付了更高的算力代价。所以天下没有免费的午餐。真的没有吗?这就是随机加权平均的用武之地了。
在了解这一方法是如何工作之前,我们首先需要理解损失平面(loss surface)和泛化的解(generalizable solution)。
权重空间内的解
个不得不提到的是,经过训练的网络是高值空间中的一个点。对给定的架构而言,每个不同的网络权值组合都代表了一个不同的模型。任何给定架构都有无穷的权重组合,因而有无穷多的解。训练神经网络的目标是找到一个特定的解(权值空间中的点),使得训练数据集和测试数据集上的损失函数的值都比较低。
在训练期间,训练算法通过改变权值来改变网络并在权值空间中漫游。梯度下降算法在一个损失平面上漫游,该平面的海拔为损失函数的值。
窄极值和宽极值
坦白的讲,可视化并理解高值空间的几何特性非常困难,但我们又不得不去了解它。因为随机梯度下降的本质是,在训练时穿过这一高维空间中的损失平面,试图找到一个良好的解——损失平面上的一个损失值较低的「点」。不过后来我们发现,这一平面有很多局部极值。但这些局部极值并不都有一样好的性质。
Geoffery Hinton:「为了处理一个 14 维空间中的超平面,可视化了一个 3 维空间,并对自己大声说『十四』。每个人都是这样做的。」
下面是 SWA 的工作原理。它只保存两个模型,而不是许多模型的集成:
个模型保存模型权值的平均值(WSWA)。在训练结束后,它将是用于预测的终模型。
第二个模型(W)将穿过权值空间,基于周期性学习率规划探索权重空间。
SWA权重更新公式
郑州聚商网络科技有限公司专注郑州网络推广,郑州网络推广外包,郑州网站推广,网站推广外包,网络营销,seo优化,网站优化,百度推广,网络公司等,10年网络营销经验,欢迎来电咨询,洽谈合作。 长期以来,郑州聚商科技公司已经为多家地方大中型企业进行网站推广及配套宣传的服务。占有市场的良好地位,并通过提供优质、全面的专业技术服务,符合市场需求的增值服务和周到的售前售后服务. 郑州聚商科技凭借其优质的产品、专业的技术和服务及“客户至上、用心服务”的服务宗旨,赢得了众多大型**公司的信赖和赞扬。我们服务的客户包括:轩逸家具、河南聚泰、河南姚氏腻子、郑州陇海医院、皇宫大酒店等在内的上千家家等**企业。 提倡公平、公正、严格的工作氛围,信奉付出与收获对等的工作原则;提倡敬业和责任心,以创新为动力,以绩效为考核标准,以客户满意为工作准则。秉承以人为本的宗旨,以完善的企业经营制度吸引国内优秀的技术、营销与管理人才。 郑州聚商科技致力成为中国蕞好的B2B网站营销服务商,专注河南省中小企业国内中文各大搜索引擎网络优化宣传服务,为中小企业提供包括“建网站+送推广+促转化+管商机”等一站式网络宣传服务,较好的为广大客户创造更多**。 长期以来,郑州聚商网络科技有限公司已经为多家地方企业进行网站建设及配套优化宣传服务。占有市场的良好地位,并通过提供优质、全面的专业技术服务,符合市场需求的增值服务和周到的售前售后服务,为客户提供量身定做的和蕞好的电子商务平台解决方案。