国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

免費做頭像網(wǎng)站色盲圖

免費做頭像網(wǎng)站,色盲圖,懷化最新防疫情,做購物平臺網(wǎng)站需要注意什么文章目錄 前言論文閱讀研究現(xiàn)狀工作內(nèi)容模型架構(gòu)訓(xùn)練過程實驗結(jié)果模型代碼 其他評價 前言 Transformer可以說是深度學(xué)習(xí)領(lǐng)域最重要的,里程碑式的工作之一,發(fā)表于2017年的NIPS。該模型開創(chuàng)了自MLP(多層感知機)、CNN(卷…

文章目錄

    • 前言
    • 論文閱讀
      • 研究現(xiàn)狀
      • 工作內(nèi)容
      • 模型架構(gòu)
      • 訓(xùn)練過程
      • 實驗結(jié)果
      • 模型代碼
    • 其他評價

前言

Transformer可以說是深度學(xué)習(xí)領(lǐng)域最重要的,里程碑式的工作之一,發(fā)表于2017年的NIPS。該模型開創(chuàng)了自MLP(多層感知機)、CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))之后的第四種基礎(chǔ)模型。這項工作也成為當前AIGC盛行的最重要的基礎(chǔ),是Google公司對人工智能領(lǐng)域的卓越貢獻。

Transformer論文中的所有作者都是共同一作,這種情況一般是比較少見的。但是,這篇文章中也詳細介紹了每一名作者對文章所做的貢獻是什么,而非只是給每個作者的貢獻用幾個很虛的詞進行描述。反觀當今學(xué)術(shù)界的共同一作掛名現(xiàn)象,不得不說有些論文的共同一作已經(jīng)失去了原本的意義,可悲可嘆。

根據(jù)2024年3月份的最新消息,實際上Transformer中二作Shazeer貢獻最大。

論文閱讀

研究現(xiàn)狀

  • 目前的主流序列轉(zhuǎn)錄模型:主流的序列轉(zhuǎn)錄模型使用復(fù)雜的循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò),包含一個編碼器和一個解碼器。性能最好的模型中,會在編碼器和解碼器之間增加一種注意力機制。對于自然語言處理中的主流序列轉(zhuǎn)錄任務(wù),目前最好的方法都是基于RNN、LSTM和GRU的。
  • 循環(huán)神經(jīng)網(wǎng)絡(luò)存在的問題:循環(huán)神經(jīng)網(wǎng)絡(luò)需要通過上一個時間步的隱藏狀態(tài)和當前時刻的輸入來獲取當前時間步的隱藏狀態(tài),這樣就妨礙了模型的并行程度。
  • 注意力機制在編解碼器中的應(yīng)用現(xiàn)狀:注意力機制往往用于循環(huán)神經(jīng)網(wǎng)絡(luò)編解碼器中,將編碼器的內(nèi)容高效地傳遞給解碼器,但是,目前還沒有僅僅基于注意力機制的模型架構(gòu)。

工作內(nèi)容

  • 研究概述:本文提出了一種簡單的網(wǎng)絡(luò)架構(gòu)Transformer,該架構(gòu)完全基于注意力機制,而舍棄了循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。該模型中將循環(huán)神經(jīng)網(wǎng)絡(luò)中的所有循環(huán)層替換為了多頭注意力,不僅能夠取得更好的性能,而且受益于很好的并行策略,該模型的訓(xùn)練時間也顯著更低。
  • 與CNN和RNN的聯(lián)系:Transformer中通過多頭注意力機制,模擬卷積神經(jīng)網(wǎng)絡(luò)的多輸出通道的優(yōu)點;通過完全并行,克服了循環(huán)神經(jīng)網(wǎng)絡(luò)中需要逐時間步計算隱藏狀態(tài)的缺點。

模型架構(gòu)

  • 編解碼器架構(gòu):Transoformer仍然基于編解碼器的基本架構(gòu),即包含一個編碼器和一個解碼器。
    • 詞元嵌入層: 將每一個詞元轉(zhuǎn)換為一個向量;
    • 編碼器:編碼器由6個完全相同的神經(jīng)網(wǎng)絡(luò)層組成,每個層都包含兩個子層,分別是一個多頭注意力子層和一個MLP子層(包含兩個線性層)。這兩個子層內(nèi)部都有殘差連接,輸出都經(jīng)過了層歸一化。編碼器的輸出作為解碼器的輸入。出于方便殘差連接的簡單考慮,所有輸出向量的維度都控制為512。
    • 解碼器:解碼器也由多個相同的塊構(gòu)成。與編碼器的塊不同,解碼器的塊中包含三個子塊,其中兩個子塊與編碼器的兩個子塊相同,但是第三個子塊是一個帶掩碼的多頭注意力機制子塊(當然其中也有殘差連接和層歸一化)。之所以需要帶掩碼的模塊,是因為按照邏輯,解碼器在計算某個時間步的輸出時不應(yīng)該看到該時間步及其之后的輸入內(nèi)容,因為所有時間步的輸入是一次性傳入解碼器的。
    • 層歸一化:對每一個樣本對應(yīng)的特征向量做一個標準化。
    • 注意力機制:注意力機制中有三個重要概念,分別是Key(簡稱K)、Value(簡稱V)和Query(簡稱Q)。計算注意力機制的過程如下:首先,需要計算Query和每個Key之間的相似度;然后,根據(jù)Query和每個Key之間的相似度為每個Value分配權(quán)重,與Query越相似的Key對應(yīng)Value的權(quán)重越大;最后,對Value進行加權(quán)平均求和,即獲得最終的Output。Transformer中,除了解碼器中的多頭注意力子層,對于輸入的序列,該序列同時作為Q K和V,即被稱為自注意力機制。
    • 兩種常見的注意力機制:加性注意力機制和點積注意力機制。Transformer中采用的是改進型的點積注意力機制。
    • 相似度的計算:最簡單的相似度計算可以采用余弦相似度,即將兩個向量進行內(nèi)積,值越大表示兩個向量的方向越相近,也就是相似度越高。在Transformer中,對點積注意力進行了Scale改進,也就是除以Key的維度的平方根,從而防止傳遞的梯度過小使得模型難以訓(xùn)練。
    • 多頭注意力機制:Transformer中沒有做高維的注意力函數(shù)計算,相反,它將注意力函數(shù)中的各個序列都進行了投影降維,并基于降維后的序列,進行了8次注意力函數(shù)計算,并將計算的結(jié)果拼接在一起。這樣的方式模擬了卷積神經(jīng)網(wǎng)絡(luò)中的多通道輸出,從而盡可能地保留了特征識別結(jié)果的多樣性。
    • 位置編碼:由于注意力機制的計算過程之中并沒有蘊含時序信息,因此需要顯式地向模型中輸入時序信息。在Transformer中,在輸入部分增加了位置編碼,該位置編碼是基于當前詞元的位置下標和三角函數(shù)進行計算的。最終,將位置編碼和嵌入后的詞元向量直接相加,就得到了每個詞的完整表示。

訓(xùn)練過程

采用8張NVIDIA P100 GPU進行訓(xùn)練(現(xiàn)在Google的工作大部分都是基于更快的TPU進行訓(xùn)練的了,而非使用GPU),使用Adam優(yōu)化器。對于學(xué)習(xí)率,采用的是一種先提升后降低的策略;模型中采用了大量Dropout技術(shù)進行正則化,dropout率設(shè)置為0.1。另外,還使用了Inception V3中的標簽平滑化操作來進行另一種正則化。

實驗結(jié)果

  • 機器翻譯任務(wù):在兩個機器翻譯任務(wù)上,該模型在性能上更加優(yōu)越,并且有更高的并行程度,需要顯著更少的訓(xùn)練時間。在一項英語到德語的翻譯實驗中,該模型比包括集群算法在內(nèi)的最好結(jié)果高出了兩個BLEU;在另一項英語到法語的翻譯任務(wù)中,該模型實現(xiàn)在所有單模型中最好的性能,并且訓(xùn)練的速度要比其他的架構(gòu)都快很多。
  • 另一項NLP任務(wù):另外,在另一個NLP任務(wù)上,Transformer也取得了很好的效果。

模型代碼

存放于Github上的tensor2tensor模塊中。

其他評價

由于注意力機制對整個模型的歸納偏置更少,因此往往需要更多的數(shù)據(jù)和更大的模型才能達到很好的效果。

http://aloenet.com.cn/news/43899.html

相關(guān)文章:

  • 百度網(wǎng)站是怎么做的營銷案例最新
  • 深圳建站公司專業(yè)公司最近熱點新聞事件2023
  • 焦作企業(yè)網(wǎng)站建設(shè)網(wǎng)站提交
  • 站長工具綜合查詢ip怎樣在百度答題賺錢
  • 羅崗網(wǎng)站建設(shè)手機網(wǎng)絡(luò)優(yōu)化軟件
  • 做網(wǎng)站專家種子搜索引擎
  • 怎么做微信電影網(wǎng)站nba最新交易匯總
  • wordpress 安全 插件高級seo
  • 網(wǎng)站空間虛擬主機長沙seo外包服務(wù)
  • 萊特幣做空 網(wǎng)站百度灰色關(guān)鍵詞代發(fā)
  • 上海外貿(mào)seo推廣百度快速seo優(yōu)化
  • 怎么做游戲推廣賺錢廊坊seo管理
  • 怎樣查詢網(wǎng)站備案號百度競價可以自學(xué)嗎
  • mysql數(shù)據(jù)做彩票網(wǎng)站參考消息今天新聞
  • 企業(yè)宣傳網(wǎng)站在哪里做seo中國是什么
  • 用asp制作動態(tài)網(wǎng)站比優(yōu)化更好的詞是
  • 百度資料怎么做網(wǎng)站東莞百度快速排名
  • 網(wǎng)站圖片優(yōu)化大小網(wǎng)絡(luò)營銷策劃書步驟
  • dede網(wǎng)站日志個人網(wǎng)站怎么做
  • 網(wǎng)站優(yōu)化軟件免費入駐的跨境電商平臺
  • 網(wǎng)站建設(shè)推廣的方法百度搜索量最大的關(guān)鍵詞
  • 做腳本從網(wǎng)站引流看網(wǎng)站時的關(guān)鍵詞
  • html網(wǎng)站發(fā)布高端網(wǎng)站建設(shè)
  • php網(wǎng)站建設(shè)帶數(shù)據(jù)庫模板網(wǎng)店關(guān)鍵詞怎么優(yōu)化
  • 企業(yè)網(wǎng)站上的二維碼怎么獲得手游推廣賺傭金的平臺
  • wordpress如何導(dǎo)出數(shù)據(jù)寧波優(yōu)化關(guān)鍵詞首頁排名
  • 以網(wǎng)站域名做郵箱怎樣做企業(yè)宣傳推廣
  • 黃頁88網(wǎng)全自動錄播系統(tǒng)寧波百度推廣優(yōu)化
  • 如何給網(wǎng)站添加搜索關(guān)鍵字網(wǎng)絡(luò)營銷有哪些方式
  • web畢業(yè)設(shè)計題目西安seo王塵宇