新的網(wǎng)站優(yōu)化方法
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)集成
一般咱們說(shuō)的「集成」(ensemble),就是組合若干不同的模型,讓它們根據(jù)相同的輸入做出猜測(cè),接著經(jīng)過(guò)某種均勻化辦法決議集成模型的終究猜測(cè)。這個(gè)決議過(guò)程可能是經(jīng)過(guò)簡(jiǎn)略的投票或取均值,也可能是經(jīng)過(guò)另一個(gè)模型,該模型根據(jù)集成模型的成果,學(xué)習(xí)猜測(cè)正確值或標(biāo)簽。嶺回歸是一種可以組合若干個(gè)不同猜測(cè)的成果的辦法,Kaggle 上衛(wèi)星數(shù)據(jù)辨認(rèn)熱帶雨林比賽的冠軍就運(yùn)用過(guò)這一辦法。
快照集成是在每次學(xué)習(xí)率周期結(jié)尾保存模型,然后在猜測(cè)時(shí)運(yùn)用。
集成應(yīng)用于深度學(xué)習(xí)時(shí),組合若干網(wǎng)絡(luò)的猜測(cè)以得到一個(gè)終究的猜測(cè)。一般,運(yùn)用好幾個(gè)不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)比較好,由于不同架構(gòu)的網(wǎng)絡(luò)一般會(huì)在不同的練習(xí)樣本上犯錯(cuò),因而集成的收益會(huì)更大。
快照集成運(yùn)用周期性學(xué)習(xí)率退火
當(dāng)然,你也可以集成同一架構(gòu)的模型,或許作用會(huì)出人意料的好。就比如這篇快照集成的論文,作者在練習(xí)同一個(gè)網(wǎng)絡(luò)的過(guò)程中保存了不同的權(quán)值快照,然后在練習(xí)之后創(chuàng)立了同一架構(gòu)、不同權(quán)值的集成網(wǎng)絡(luò)。這么做可以提高測(cè)驗(yàn)的體現(xiàn),一起也超省錢(qián)——由于你只需求練習(xí)一個(gè)模型、練習(xí)一次就好,只需記得隨時(shí)保存權(quán)值就行。
你可以仔細(xì)閱讀下文章開(kāi)始說(shuō)到的那篇 Vitaly Bushaev 的關(guān)于學(xué)習(xí)率的文章。假如你到目前為止還沒(méi)有嘗試過(guò)周期性學(xué)習(xí)率,那你真該去試試,它正在成為當(dāng)時(shí)作用最好的、也最規(guī)范的做法,它簡(jiǎn)略易上手,核算量很輕,可以說(shuō)十分事半功倍了。
上文羅列的所有比如都是模型空間內(nèi)的集成。組合若干模型,接著運(yùn)用這些模型的猜測(cè)以得到終究的猜測(cè)成果。
而本文我想給咱們介紹的論文中,作者提出了一種全新的權(quán)值空間內(nèi)的集成。該辦法經(jīng)過(guò)組合同一網(wǎng)絡(luò)在練習(xí)的不同階段的權(quán)值得到一個(gè)集成,接著運(yùn)用組合的權(quán)值做出猜測(cè)。這種辦法有兩個(gè)優(yōu)點(diǎn):
組合權(quán)重后,咱們終究依然得到一個(gè)模型,這有利于加速猜測(cè)。事實(shí)證明,這種辦法勝過(guò)當(dāng)時(shí)最先進(jìn)的快照集成。
在了解這一辦法是怎么作業(yè)之前,咱們首要需求了解丟失平面(loss surface)和泛化的解(generalizable solution)。
權(quán)重空間內(nèi)的解
榜首個(gè)不得不說(shuō)到的是,經(jīng)過(guò)練習(xí)的網(wǎng)絡(luò)是高維權(quán)值空間中的一個(gè)點(diǎn)。對(duì)給定的架構(gòu)而言,每個(gè)不同的網(wǎng)絡(luò)權(quán)值組合都代表了一個(gè)不同的模型。任何給定架構(gòu)都有無(wú)量的權(quán)重組合,因而有無(wú)量多的解。練習(xí)神經(jīng)網(wǎng)絡(luò)的目標(biāo)是找到一個(gè)特定的解(權(quán)值空間中的點(diǎn)),使得練習(xí)數(shù)據(jù)集和測(cè)驗(yàn)數(shù)據(jù)集上的丟失函數(shù)的值都比較低。
在練習(xí)期間,練習(xí)算法經(jīng)過(guò)改動(dòng)權(quán)值來(lái)改動(dòng)網(wǎng)絡(luò)并在權(quán)值空間中周游。梯度下降算法在一個(gè)丟失平面上周游,該平面的海拔為丟失函數(shù)的值。
窄極值和寬極值
率直的講,可視化并了解高維權(quán)值空間的幾許特性十分困難,但咱們又不得不去了解它。由于隨機(jī)梯度下降的實(shí)質(zhì)是,在練習(xí)時(shí)穿過(guò)這一高維空間中的丟失平面,企圖找到一個(gè)良好的解——丟失平面上的一個(gè)丟失值較低的「點(diǎn)」。不過(guò)后來(lái)咱們發(fā)現(xiàn),這一平面有許多部分極值。但這些部分極值并不都有相同好的性質(zhì)。
Geoffery Hinton:「為了處理一個(gè) 14 維空間中的超平面,可視化了一個(gè) 3 維空間,并對(duì)自己大聲說(shuō)『十四』。每個(gè)人都是這樣做的?!梗ǔ鎏帲篶oursera 課程)
寬的極值和窄的極值。寬的部分極小值在練習(xí)和測(cè)驗(yàn)過(guò)程中發(fā)生類(lèi)似的丟失;但關(guān)于窄的部分極小值而言,練習(xí)和測(cè)驗(yàn)中發(fā)生的丟失就會(huì)有很大區(qū)別。這意味著,寬的極值比窄的極值有更好的泛化性。
平整度可以用來(lái)衡量一個(gè)解的好壞。其間的原理是,練習(xí)數(shù)據(jù)集和測(cè)驗(yàn)數(shù)據(jù)聚會(huì)發(fā)生類(lèi)似但不盡相同的丟失平面。你可以將其幻想為測(cè)驗(yàn)平面相對(duì)練習(xí)平面而言平移了一點(diǎn)。對(duì)窄的解來(lái)說(shuō),一個(gè)在測(cè)驗(yàn)的時(shí)分丟失較低的點(diǎn)可能由于這一平移發(fā)生變?yōu)閬G失較高的點(diǎn)。這意味著窄的(尖利的)解的泛化性不好——練習(xí)丟失低,測(cè)驗(yàn)丟失高。另一方面,關(guān)于寬的(平整的)解而言,這一平移形成的練習(xí)丟失和測(cè)驗(yàn)丟失間的差異較小。
我解說(shuō)了兩種解決方案之間的區(qū)別,是由于這篇論文的提出的辦法、也是我這篇文章要點(diǎn)介紹的辦法,就能帶來(lái)討人喜歡的、寬的(平整的)解。
快照集成(Snapshot Ensembling)
開(kāi)始,SGD 會(huì)在權(quán)值空間中跳出一大步。接著,由于余弦退火,學(xué)習(xí)率會(huì)逐步降低,SGD 將逐步收斂于某個(gè)部分解,算法將保存一個(gè)模型的「快照」,把它參加集成模型。接著學(xué)習(xí)率重置為高值,SGD 再次邁一大步,找到另一個(gè)部分極值,以此類(lèi)推。
快照集成的周期長(zhǎng)度為 20 到 40 個(gè) epoch。較長(zhǎng)的學(xué)習(xí)率周期是為了在權(quán)值空間中找到滿足具有差異化的模型,以發(fā)揮集成的優(yōu)勢(shì)。假如模型太類(lèi)似,那么集成模型中不同網(wǎng)絡(luò)的猜測(cè)將會(huì)過(guò)于接近,以至于集成并不會(huì)帶來(lái)多大益處了。
快照集成體現(xiàn)優(yōu)異,提高了模型的體現(xiàn),但快速幾許集成作用更好。
快速幾許集成(Fast Geometric Ensembling,F(xiàn)GE)
《DNNs 的丟失外表、形式連接和快速集成》中提出的快速幾許集成 FGE 和快照集成十分像,可是也有一些共同的特點(diǎn)。它們的不同主要有兩點(diǎn)。榜首,快速幾許集成運(yùn)用線性分段周期學(xué)習(xí)率規(guī)劃,而不是余弦改變。第二,F(xiàn)GE 的周期長(zhǎng)度要短得多——2 到 4 個(gè) epoch。乍一看咱們必定直覺(jué)上覺(jué)得這么短的周期是不對(duì)的,由于每個(gè)周期完畢的時(shí)分的得到的模型互相之間離得太近了,這樣得到的集成模型沒(méi)有什么優(yōu)勢(shì)。但是作者們發(fā)現(xiàn),在滿足不同的模型之間,存在著丟失較低的連通途徑。咱們有時(shí)機(jī)沿著這些途徑用較小的步長(zhǎng)跋涉,一起這些模型也可以有滿足大的差異,滿足發(fā)揮集成的優(yōu)勢(shì)。因而,相比快照集成, FGE 體現(xiàn)更好,搜索模型的步長(zhǎng)更小(這也使其練習(xí)更快)。
FGE 沿著這些途徑保存快照,然后創(chuàng)立快照的集成。
要從快照集成或 FGE 中獲益,需求存儲(chǔ)多個(gè)模型,接著讓每個(gè)模型做出猜測(cè),之后加以均勻以得到終究猜測(cè)。因而,咱們?yōu)榧傻念~定體現(xiàn)支付了更高的算力價(jià)值。所以天下沒(méi)有免費(fèi)的午飯。真的沒(méi)有嗎?這就是隨機(jī)加權(quán)均勻的用武之地了。
成都全網(wǎng)推廣-了解更多此方面的朋友請(qǐng)登陸:http://920576.cn/!這里有更多的驚喜等著您!