SWA 的直觉来自以下由经验得到的观察:每个学习率周期得到的局部极小值倾向于堆积在损失平面的低损失值区域的边缘(上图左侧的图形中,褐域误差较低,点W1、W2、3分别表示3个独立训练的网络,位于褐域的边缘)。对这些点取平均值,可能得到一个宽阔的泛化解,其损失更低(上图左侧图形中的 WSWA)。
下面是 SWA 的工作原理。它只保存两个模型,而不是许多模型的集成:
个模型保存模型权值的平均值(WSWA)。在训练结束后,它将是用于预测的终模型。
第二个模型(W)将穿过权值空间,基于周期性学习率规划探索权重空间。
SWA权重更新公式
FGE 沿着这些路径保存快照,从而创建快照的集成。
要从快照集成或 FGE 中受益,需要存储多个模型,接着让每个模型做出预测,之后加以平均以得到终预测。因此,我们为集成的额外表现支付了更高的算力代价。所以天下没有免费的午餐。真的没有吗?这就是随机加权平均的用武之地了。
宽的极值和窄的极值。宽的局部极小值在训练和测试过程中产生类似的损失;但对于窄的局部极小值而言,训练和测试中产生的损失就会有很大区别。这意味着,宽的极值比窄的极值有更好的泛化性。
平坦度可以用来衡量一个解的优劣。其中的原理是,训练数据集和测试数据产生相似但不尽相同的损失平面。你可以将其想象为测试平面相对训练平面而言平移了一点。对窄的解来说,一个在测试的时候损失较低的点可能因为这一平移产生变为损失较高的点。这意味着窄的(尖锐的)解的泛化性不好——训练损失低,测试损失高。另一方面,对于宽的(平坦的)解而言,这一平移造成的训练损失和测试损失间的差异较小。
我解释了两种解决方案之间的区别,是因为这篇论文的提出的方法、也是我这篇文章重点介绍的方法,就能带来讨人喜欢的、宽的(平坦的)解。
快照集成(Snapshot Ensembling)
初,SGD 会在权值空间中跳出一大步。接着,由于余弦退火,学习率会逐渐降低,SGD 将逐渐收敛于某个局部解,算法将保存一个模型的「快照」,把它加入集成模型。接着学习率重置为高值,SGD 再次迈一大步,找到另一个局部极值,以此类推。
快照集成的周期长度为 20 到 40 个 epoch。较长的学习率周期是为了在权值空间中找到足够具有差异化的模型,以发挥集成的优势。如果模型太相似,那么集成模型中不同网络的预测将会过于接近,以至于集成并不会带来多大益处了。
快照集成表现优异,提升了模型的表现,但快速几何集成效果更好。
快速几何集成(Fast Geometric Ensembling,FGE)
《DNNs 的损失表面、模式连接和快速集成》中提出的快速几何集成 FGE 和快照集成非常像,但是也有一些独特的特点。它们的不同主要有两点。,快速几何集成使用线性分段周期学习率规划,而不是余弦变化。第二,FGE 的周期长度要短得多——2 到 4 个 epoch。乍一看大家肯定直觉上觉得这么短的周期是不对的,因为每个周期结束的时候的得到的模型互相之间离得太近了,这样得到的集成模型没有什么优势。然而作者们发现,在足够不同的模型之间,存在着损失较低的连通路径。我们有机会沿着这些路径用较小的步长行进,同时这些模型也能够有足够大的差异,足够发挥集成的优势。因此,相比快照集成, FGE 表现更好,搜寻模型的步长更小(这也使其训练更快)。
郑州聚商网络科技有限公司专注郑州网络推广,郑州网络推广外包,郑州网站推广,网站推广外包,网络营销,seo优化,网站优化,百度推广,网络公司等,10年网络营销经验,欢迎来电咨询,洽谈合作。 长期以来,郑州聚商科技公司已经为多家地方大中型企业进行网站推广及配套宣传的服务。占有市场的良好地位,并通过提供优质、全面的专业技术服务,符合市场需求的增值服务和周到的售前售后服务. 郑州聚商科技凭借其优质的产品、专业的技术和服务及“客户至上、用心服务”的服务宗旨,赢得了众多大型**公司的信赖和赞扬。我们服务的客户包括:轩逸家具、河南聚泰、河南姚氏腻子、郑州陇海医院、皇宫大酒店等在内的上千家家等**企业。 提倡公平、公正、严格的工作氛围,信奉付出与收获对等的工作原则;提倡敬业和责任心,以创新为动力,以绩效为考核标准,以客户满意为工作准则。秉承以人为本的宗旨,以完善的企业经营制度吸引国内优秀的技术、营销与管理人才。 郑州聚商科技致力成为中国蕞好的B2B网站营销服务商,专注河南省中小企业国内中文各大搜索引擎网络优化宣传服务,为中小企业提供包括“建网站+送推广+促转化+管商机”等一站式网络宣传服务,较好的为广大客户创造更多**。 长期以来,郑州聚商网络科技有限公司已经为多家地方企业进行网站建设及配套优化宣传服务。占有市场的良好地位,并通过提供优质、全面的专业技术服务,符合市场需求的增值服务和周到的售前售后服务,为客户提供量身定做的和蕞好的电子商务平台解决方案。