国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

培訓(xùn)型網(wǎng)站建設(shè)網(wǎng)站搜索引擎優(yōu)化的基本內(nèi)容

培訓(xùn)型網(wǎng)站建設(shè),網(wǎng)站搜索引擎優(yōu)化的基本內(nèi)容,福田歐曼圖片,天津大型網(wǎng)站建設(shè)報(bào)價(jià)公司InstructGPT方法簡讀 引言 僅僅通過增大模型規(guī)模和數(shù)據(jù)規(guī)模來訓(xùn)練更大的模型并不能使得大模型更好地理解用戶意圖。由于數(shù)據(jù)的噪聲極大,并且現(xiàn)在的大多數(shù)大型語言模型均為基于深度學(xué)習(xí)的“黑箱模型”,幾乎不具有可解釋性和可控性,因此&…

InstructGPT方法簡讀

引言

僅僅通過增大模型規(guī)模和數(shù)據(jù)規(guī)模來訓(xùn)練更大的模型并不能使得大模型更好地理解用戶意圖。由于數(shù)據(jù)的噪聲極大,并且現(xiàn)在的大多數(shù)大型語言模型均為基于深度學(xué)習(xí)的“黑箱模型”,幾乎不具有可解釋性和可控性,因此,大模型很可能會(huì)輸出虛構(gòu)的、有害的,或者對(duì)用戶無用的結(jié)果。換句話說,大模型并沒有與用戶對(duì)齊(aligned)。本文提出了一種通過微調(diào)人類反饋來調(diào)整語言模型和用戶在廣泛任務(wù)中的意圖的方法。從一組標(biāo)注員編寫的 prompt 和通過 OpenAI API 提交的 prompt 開始,本文收集了人類標(biāo)注的所需模型行為的數(shù)據(jù)集,使用該數(shù)據(jù)集通過有監(jiān)督學(xué)習(xí)來微調(diào) GPT-3。然后,由標(biāo)注員對(duì)模型輸出的回答質(zhì)量進(jìn)行排序,得到一個(gè)問答質(zhì)量排序數(shù)據(jù)集。使用該數(shù)據(jù)集來訓(xùn)練一個(gè)評(píng)分模型,為回答質(zhì)量進(jìn)行打分。最后結(jié)合評(píng)分模型,使用強(qiáng)化學(xué)習(xí)來進(jìn)一步微調(diào)第一步有監(jiān)督微調(diào)過的模型。得到的模型稱為InstructGPT。

從 GPT 到 InstructGPT/ChatGPT:對(duì)齊(align),不僅僅是簡單的語言模型(LM),而能夠進(jìn)行對(duì)話。

優(yōu)化目標(biāo):3H:Helpful、Honest、Harmless。三點(diǎn)優(yōu)化目標(biāo)要求模型輸出人類想要的信息,分別是有用、誠實(shí)和無害。

方法

如圖 1 所示,由 GPT 到 InstructGPT 的訓(xùn)練共有三個(gè)步驟,分別是第一階段有監(jiān)督微調(diào)、第二階段獎(jiǎng)勵(lì)模型訓(xùn)練、第三階段根據(jù) PPO 近端算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。接下來將分別從三個(gè)階段的數(shù)據(jù)集、模型和訓(xùn)練目標(biāo)出發(fā),介紹 InstructGPT 的完整訓(xùn)練過程。

在這里插入圖片描述

InstructGPT的三個(gè)訓(xùn)練步驟

數(shù)據(jù)集

數(shù)據(jù)集的收集過程如下。首先使用初步模型,發(fā)布內(nèi)測版接口給用戶使用,收集問題(prompt)。根據(jù)這些問題構(gòu)建數(shù)據(jù)集:

  1. 請(qǐng)標(biāo)注工直接寫問題的答案,用于微調(diào)訓(xùn)練 SFT 模型,~13k;
  2. 將問題輸入 LM,生成多個(gè)答案,請(qǐng)標(biāo)注工對(duì)這些答案的質(zhì)量進(jìn)行排序,用于訓(xùn)練 RM 模型,~33k;
  3. 不需要標(biāo)注工,RM 模型對(duì) LM 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,~31k;

模型與訓(xùn)練目標(biāo)

SFT(Supervised Fine-Tuned)

16ep,雖然 ep1 就過擬合了,但是由于是用于后續(xù)的訓(xùn)練步驟,而非最終模型,因此不怕過擬合。

RM(Reward Model)

在 SFT 模型的基礎(chǔ)上進(jìn)行微調(diào),輸出層改為 FC,最后輸出一個(gè)標(biāo)量值,表示問答質(zhì)量得分(reward)。

該模型的訓(xùn)練數(shù)據(jù)是標(biāo)注工標(biāo)注的回答質(zhì)量排序,而非具體的標(biāo)量得分,損失函數(shù)為成對(duì)排序損失(pairwise ranking loss):
loss(θ)=?1(K2)E(x,yw,yl)~D[log?(σ(rθ(x,yw)?rθ(x,yl)))]\text{loss}(\theta)=-\frac{1}{\begin{pmatrix}K\\2\end{pmatrix}}E_{(x,y_w,y_l)\sim D}[\log(\sigma(r_\theta(x,y_w)-r_\theta(x,y_l)))] loss(θ)=?(K2?)1?E(x,yw?,yl?)D?[log(σ(rθ?(x,yw?)?rθ?(x,yl?)))]
其中 rθ(x,y)r_\theta(x,y)rθ?(x,y) 是參數(shù)為 θ\thetaθ 的 RM 模型對(duì)于問答對(duì) (x,y)(x,y)(x,y) 的評(píng)分,yw,yly_w,y_lyw?,yl? 是一對(duì)回答,其中 ywy_wyw? 的質(zhì)量相對(duì)更好,DDD 是標(biāo)注員標(biāo)注的問答質(zhì)量排序數(shù)據(jù)集。該損失函數(shù)的優(yōu)化目標(biāo)就是 RM 需要對(duì)較好的回答給出更高的評(píng)分。

強(qiáng)化學(xué)習(xí)訓(xùn)練最終的 LM 模型

該階段強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)為
objective(?)=E(x,y)~Dπ?RL[rθ(x,y)?βlog?(π?RL(y∣x)/πSFT(y∣x))]+γEx~Dpretrain[log?(π?RL(x))]\text{objective}(\phi)=E_{(x,y)\sim D_{\pi_\phi^{RL}}}[r_\theta(x,y)-\beta\log (\pi_\phi^{RL}(y|x)/\pi^{SFT}(y|x))]+\gamma E_{x\sim D_\text{pretrain}}[\log(\pi_\phi^{RL}(x))] objective(?)=E(x,y)Dπ?RL???[rθ?(x,y)?βlog(π?RL?(yx)/πSFT(yx))]+γExDpretrain??[log(π?RL?(x))]
其中 π?RL\pi_\phi^{RL}π?RL? 是要學(xué)習(xí)的 RL 策略(即最終的 InstructGPT 模型),πSFT\pi^{SFT}πSFT 是經(jīng)過第一步有監(jiān)督訓(xùn)練之后的模型,DpretrainD_\text{pretrain}Dpretrain? 是預(yù)訓(xùn)練時(shí)的數(shù)據(jù)分布。式中二三兩項(xiàng)分別是 KL 懲罰項(xiàng)和語言建模預(yù)訓(xùn)練正則項(xiàng),分別用來約束模型參數(shù)不要與 πSFT\pi^{SFT}πSFT 差距太大,重新使用預(yù)訓(xùn)練階段的語言建模作為優(yōu)化目標(biāo),保證模型的通用 NLP 能力。β\betaβγ\gammaγ 分別是控制這兩項(xiàng)的權(quán)重參數(shù)。

LM 模型對(duì)給定問題生成答案。目標(biāo)函數(shù)共有三項(xiàng),分別是

  1. 最大化 RM 評(píng)分值
  2. KL 散度正則項(xiàng),使得模型與 SFT 模型的輸出接近
  3. LM 預(yù)訓(xùn)練(原 GPT 訓(xùn)練) 正則項(xiàng)

Ref

  • Training language models to follow instructions with human feedback

  • InstructGPT 論文精讀【論文精讀·48】

  • ChatGPT/InstructGPT詳解

  • 關(guān)于Instruct GPT復(fù)現(xiàn)的一些細(xì)節(jié)與想法

http://aloenet.com.cn/news/47172.html

相關(guān)文章:

  • 做網(wǎng)站認(rèn)證違法嗎煙臺(tái)seo
  • 動(dòng)態(tài)網(wǎng)站設(shè)計(jì)論文3000字seoul是哪個(gè)國家
  • 中國鐵建華南建設(shè)有限公司網(wǎng)站十大搜索引擎地址
  • wordpress文章標(biāo)題字體大小東莞市網(wǎng)絡(luò)seo推廣服務(wù)機(jī)構(gòu)
  • 國外 上海網(wǎng)站建設(shè)google搜索網(wǎng)址
  • 常州網(wǎng)站建設(shè)多少錢收錄網(wǎng)站有哪些
  • 網(wǎng)站搭建培訓(xùn)學(xué)電腦培訓(xùn)班
  • 網(wǎng)站建設(shè)的相關(guān)書籍今日頭條鄭州頭條新聞
  • 順德營銷型網(wǎng)站建設(shè)查關(guān)鍵詞的排名工具
  • 網(wǎng)站建設(shè)方案標(biāo)準(zhǔn)模板seo技術(shù)交流
  • 浙江建設(shè)廳網(wǎng)站官網(wǎng)seo關(guān)鍵詞排名系統(tǒng)
  • 做網(wǎng)站都需要哪些技術(shù)網(wǎng)絡(luò)推廣和seo
  • 電子商務(wù)網(wǎng)站軟件建設(shè)的核心是武漢大學(xué)人民醫(yī)院地址
  • 香港公司網(wǎng)站備案公司建立網(wǎng)站的步驟
  • 做二手房網(wǎng)站有哪些seo營銷是什么
  • 海寧高端高端網(wǎng)站設(shè)計(jì)人工智能培訓(xùn)機(jī)構(gòu)排名
  • 讓人做網(wǎng)站 需要準(zhǔn)備什么軟件深圳英文站seo
  • 網(wǎng)站備案號(hào)在哪里查詢美國seo薪酬
  • 網(wǎng)站機(jī)房建設(shè)有助于怎么做盲盒
  • 開封企業(yè)網(wǎng)絡(luò)推廣方案seo和sem的區(qū)別
  • 鐘表玻璃東莞網(wǎng)站建設(shè)寧波seo網(wǎng)絡(luò)推廣軟件系統(tǒng)
  • h5 網(wǎng)站建設(shè)網(wǎng)絡(luò)營銷活動(dòng)方案
  • 深圳網(wǎng)站建設(shè)定制網(wǎng)站seo推廣多少錢
  • 做網(wǎng)站那個(gè)公司網(wǎng)站建設(shè)公司官網(wǎng)
  • 網(wǎng)站建設(shè)進(jìn)展推進(jìn)表旺道seo軟件技術(shù)
  • 網(wǎng)站建設(shè)崗位廉政風(fēng)險(xiǎn)防控互聯(lián)網(wǎng)銷售平臺(tái)有哪些
  • 西安建設(shè)過政府網(wǎng)站的公司國外網(wǎng)站搭建
  • 公司文化墻圖片大全關(guān)鍵詞優(yōu)化排名軟件案例
  • wordpress建購物網(wǎng)站成都網(wǎng)絡(luò)營銷公司哪家好
  • wordpress網(wǎng)站突然打不開阿里云域名注冊(cè)官網(wǎng)