国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

會(huì)議網(wǎng)站建設(shè)方案模板搜一搜站長工具

會(huì)議網(wǎng)站建設(shè)方案模板,搜一搜站長工具,網(wǎng)站文風(fēng),免費(fèi)的網(wǎng)站搭建平臺(tái)筆記整理:閔德海,東南大學(xué)碩士,研究方向?yàn)橹R(shí)圖譜 鏈接:https://arxiv.org/abs/1412.6550 動(dòng)機(jī) 提高神經(jīng)網(wǎng)絡(luò)的深度通??梢蕴岣呔W(wǎng)絡(luò)性能,但它也使基于梯度的訓(xùn)練更加困難,因?yàn)楦畹木W(wǎng)絡(luò)往往更加強(qiáng)的非線…

b7b0e8d46841639bfee3cc163c3ebcd7.png

筆記整理:閔德海,東南大學(xué)碩士,研究方向?yàn)橹R(shí)圖譜

鏈接:https://arxiv.org/abs/1412.6550

動(dòng)機(jī)

提高神經(jīng)網(wǎng)絡(luò)的深度通??梢蕴岣呔W(wǎng)絡(luò)性能,但它也使基于梯度的訓(xùn)練更加困難,因?yàn)楦畹木W(wǎng)絡(luò)往往更加強(qiáng)的非線性。最近提出的知識(shí)蒸餾方法旨在獲得小型和快速執(zhí)行的模型,它已經(jīng)表明參數(shù)量較小的學(xué)生網(wǎng)絡(luò)可以較好的模仿更大的教師網(wǎng)絡(luò)或網(wǎng)絡(luò)集群的Soft Output。

在本文中,我們擴(kuò)展了這一思想,允許訓(xùn)練一個(gè)比教師模型更深更薄的學(xué)生模型,不僅使用輸出層的信息,還使用教師模型學(xué)習(xí)到的中間表示作為提示,以改善學(xué)生模型的訓(xùn)練過程和最終表現(xiàn)。由于學(xué)生模型中間隱含層一般會(huì)小于教師模型中間隱含層,因此引入附加參數(shù)將學(xué)生模型隱含層映射到教師隱含層的預(yù)測。

這使得我們可以訓(xùn)練更深的學(xué)生模型,他們可以更好地泛化或者運(yùn)行得更快(這由所選學(xué)生模型的能力的權(quán)衡控制)。例如,在CIFAR-10上,我們完成了一個(gè)參數(shù)少近10.4倍的深度學(xué)生網(wǎng)絡(luò)比一個(gè)更大、最先進(jìn)的教師網(wǎng)絡(luò)表現(xiàn)更好。

主要解決的問題

論文主要針對Hinton提出的知識(shí)蒸餾法進(jìn)行擴(kuò)展,允許Student網(wǎng)絡(luò)可以比Teacher網(wǎng)絡(luò)更深更窄,使用teacher網(wǎng)絡(luò)的輸出和中間層的特征作為提示,改進(jìn)訓(xùn)練過程和student網(wǎng)絡(luò)的性能。

貢獻(xiàn)

(1)引入了intermediate-level hints來指導(dǎo)學(xué)生模型的訓(xùn)練。

(2)使用一個(gè)寬而淺的教師模型來訓(xùn)練一個(gè)窄而深的學(xué)生模型。

(3)在進(jìn)行hint引導(dǎo)時(shí),提出使用一個(gè)層來匹配hint層和guided層的輸出shape,這在后人的工作里面常被稱為adaptation layer。

方法

1. Hint-Based Training

將教師的hint layer作為監(jiān)督,學(xué)生的guided layer作為被監(jiān)督的對象,希望guided layer可以盡可能地去預(yù)測到hint layer的輸出。

HT Loss表示如下:

e9eff017fad50fc0df2ca229c97bb0cd.png

作者使用了一個(gè)回歸層r(對應(yīng)下圖b中的Wr), 來對齊特征的shape。

b170cd99474ce5385b2dd09ecfd235a8.png

圖1?模型的訓(xùn)練框架

此外,本文作者認(rèn)為使用hint來進(jìn)行引導(dǎo)是一種正則化手段,學(xué)生guided層越深,那么正則化作用就越明顯,為了避免過度正則化,需要仔細(xì)選擇hint和guided。

2. FITNET STAGE-WISE TRAINING

分成兩個(gè)階段

(1)使用訓(xùn)練好的教師模型和隨機(jī)初始化的學(xué)生模型,在第一階段,用教師的hint來預(yù)訓(xùn)練學(xué)生的guided layer及之前的層。

(2)第二個(gè)階段,使用經(jīng)典的KD loss來對整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,KD loss為:

cd46c653890d747b5666a797586bec6e.png

整體的蒸餾算法如下:

b895b5f226799653737101fa5b92f120.png

圖2 蒸餾算法的偽代碼

實(shí)驗(yàn)

1. 數(shù)據(jù)集

CIFAR-10:為了驗(yàn)證我們的方法,我們訓(xùn)練了一個(gè)最大輸出卷積層的教師網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)17層最大輸出卷積層的FitNet,接著是一個(gè)最大輸出全連接層和一個(gè)頂部的softmax層,大約有1/3的參數(shù)。學(xué)生網(wǎng)絡(luò)的第11層被訓(xùn)練成模仿教師網(wǎng)絡(luò)的第2層。在訓(xùn)練期間,我們使用隨機(jī)翻轉(zhuǎn)來增強(qiáng)數(shù)據(jù)。

SVHN:?由GoogleStreet View收集的32×32彩色房屋號碼圖像組成。訓(xùn)練集中有73,257張圖像,測試集中有26,032張圖像,還有531,131個(gè)較不困難的示例。我們訓(xùn)練了一個(gè)由11個(gè)最大輸出卷積層、一個(gè)全連接層和一個(gè)softmax層組成的13層FitNet。

2.?結(jié)果

CIFAR-10數(shù)據(jù)集

c66f45d4362533b3d5d8366bb3a279a5.png

表1 CIFAR-10的準(zhǔn)確率表現(xiàn)

表1總結(jié)了獲得的結(jié)果。我們的學(xué)生模型勝過教師模型,同時(shí)需要明顯較少的參數(shù),這表明深度對于實(shí)現(xiàn)更好的表示至關(guān)重要。與網(wǎng)絡(luò)壓縮方法相比,我們的算法取得了出色的結(jié)果。即,學(xué)生網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到91.61%,比之前的最佳表現(xiàn)者85.8%高得多,同時(shí)需要大約28倍的參數(shù)。與最先進(jìn)的方法相比,我們的算法匹配了最佳的表現(xiàn)者。有人可能會(huì)質(zhì)疑使用寬教師網(wǎng)絡(luò)的隱藏狀態(tài)來提示內(nèi)部層的選擇。一個(gè)直接的替代方案是使用所需的輸出來提示它們。這可以通過幾種不同的方式解決:(1)階段性訓(xùn)練,其中第1階段優(yōu)化網(wǎng)絡(luò)的前半部分以實(shí)現(xiàn)分類目標(biāo),第2階段優(yōu)化整個(gè)網(wǎng)絡(luò)以實(shí)現(xiàn)分類目標(biāo)。在這種情況下,第1階段設(shè)置了網(wǎng)絡(luò)參數(shù)的一個(gè)良好局部極小值,但此初始化似乎不能充分幫助第2階段學(xué)習(xí),導(dǎo)致它無法學(xué)習(xí)。

SVHN數(shù)據(jù)集

dab93ad32dd25c9b1f43feea614d48a3.png

表2 SVHN的錯(cuò)誤率

表2的數(shù)據(jù)表明盡管使用的只有教師網(wǎng)絡(luò)容量的32%,但我們的FitNet實(shí)現(xiàn)了與教師網(wǎng)絡(luò)相當(dāng)?shù)臏?zhǔn)確性。我們的FitNet在性能方面與其他最先進(jìn)的方法(如Maxout和Network in Network)相當(dāng)。

總結(jié)

本研究提出了一種新的框架,通過引入來自教師隱藏層的中間層提示來壓縮寬而深的網(wǎng)絡(luò)為更薄更深的網(wǎng)絡(luò)。能夠使用這些提示來訓(xùn)練具有更少參數(shù)的非常深的學(xué)生模型,這些模型可以比其教師模型更好地泛化和/或更快地運(yùn)行。本研究提供了實(shí)證證據(jù),表明使用教師網(wǎng)絡(luò)的隱藏狀態(tài)提示薄而深的網(wǎng)絡(luò)的內(nèi)部層比使用分類目標(biāo)提示更好地泛化。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)強(qiáng)調(diào),具有低容量的深度網(wǎng)絡(luò)能夠提取與具有多達(dá)10倍參數(shù)的網(wǎng)絡(luò)相當(dāng)甚至更好的特征表示?;谔崾镜挠?xùn)練表明,應(yīng)更加努力地探索新的訓(xùn)練策略,以利用深度網(wǎng)絡(luò)的強(qiáng)大力量。


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

1336c9cf3239b036240ce4d125f6fea4.png

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

http://aloenet.com.cn/news/40993.html

相關(guān)文章:

  • 企業(yè)做網(wǎng)站和宣傳冊的作用bt磁力在線種子搜索神器
  • 如何接做網(wǎng)站編程的生意成長電影在線觀看免費(fèi)
  • 網(wǎng)站后臺(tái)管理系統(tǒng)使用百度seo如何快速排名
  • 臨沂網(wǎng)站建設(shè)培訓(xùn)班seo工具優(yōu)化軟件
  • 織夢通用seo網(wǎng)站模板百度客服電話24小時(shí)
  • 企業(yè)網(wǎng)站建設(shè)市場報(bào)價(jià)技術(shù)培訓(xùn)機(jī)構(gòu)排名前十
  • 做百度推廣需要網(wǎng)站嗎快手推廣網(wǎng)站
  • 初中畢業(yè)學(xué)網(wǎng)站開發(fā)工程師銷售成功案例分享
  • b站停止轉(zhuǎn)播404直播入口微信加精準(zhǔn)客源軟件
  • 用模板網(wǎng)站做h5宣傳頁多少錢跨境電商哪個(gè)平臺(tái)比較好
  • 便宜網(wǎng)站設(shè)計(jì)杭州網(wǎng)站建設(shè)
  • 二級建造師證書查詢官方網(wǎng)站全球搜索引擎網(wǎng)站
  • cn域名注冊廣州seo網(wǎng)站
  • 寶塔網(wǎng)站301重定向怎么做網(wǎng)站關(guān)鍵詞如何快速上首頁
  • 佛山企業(yè)網(wǎng)站搭建公司百度行發(fā)代理商
  • 用什么軟件做網(wǎng)站圖片百度平臺(tái)推廣聯(lián)系方式
  • 網(wǎng)站欄目結(jié)構(gòu)浙江專業(yè)網(wǎng)站seo
  • 自己做網(wǎng)站處理圖片用什么軟件下載寧德市人力資源和社會(huì)保障局
  • 東莞廣告公司電話百度關(guān)鍵詞優(yōu)化大師
  • 汕尾商城網(wǎng)站建設(shè)溫州網(wǎng)站建設(shè)優(yōu)化
  • 響應(yīng)式網(wǎng)站建設(shè)必推全網(wǎng)天下seo網(wǎng)站推廣方法
  • 有沒有在家做的手工活網(wǎng)站網(wǎng)絡(luò)推廣公司專業(yè)網(wǎng)絡(luò)
  • 網(wǎng)站推廣工作職責(zé)博客網(wǎng)站登錄
  • 有贊小程序開發(fā)平臺(tái)seo優(yōu)化個(gè)人博客
  • 自制app網(wǎng)站網(wǎng)站標(biāo)題算關(guān)鍵詞優(yōu)化嗎
  • 如何用eclipse做網(wǎng)站全媒體運(yùn)營師報(bào)考條件
  • wordpress sora 公開版谷歌seo服務(wù)公司
  • 做海外網(wǎng)站推廣360優(yōu)化大師安卓手機(jī)版下載安裝
  • 網(wǎng)站開發(fā) h5品牌廣告語
  • 網(wǎng)站開發(fā)女今日最新的新聞