国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站優(yōu)化一般要怎么做推廣優(yōu)化廠商聯(lián)系方式

網(wǎng)站優(yōu)化一般要怎么做,推廣優(yōu)化廠商聯(lián)系方式,廣州微信網(wǎng)站設(shè)計制作,淘寶運營培訓(xùn)總結(jié)年輕的陀思妥耶夫斯基被介紹給生成AI,通過Midjourney創(chuàng)建 一、說明 我經(jīng)常與不同領(lǐng)域的同事互動,我喜歡向幾乎沒有數(shù)據(jù)科學(xué)背景的人傳達(dá)機器學(xué)習(xí)概念的挑戰(zhàn)。在這里,我試圖用簡單的術(shù)語解釋 GPT 是如何連接的,只是這次是書面形式?!?article class="baidu_pl">

年輕的陀思妥耶夫斯基被介紹給生成AI,通過Midjourney創(chuàng)建

一、說明

????????我經(jīng)常與不同領(lǐng)域的同事互動,我喜歡向幾乎沒有數(shù)據(jù)科學(xué)背景的人傳達(dá)機器學(xué)習(xí)概念的挑戰(zhàn)。在這里,我試圖用簡單的術(shù)語解釋 GPT 是如何連接的,只是這次是書面形式。

????????在ChatGPT流行的魔術(shù)背后,有一個不受歡迎的邏輯。你給 ChatGPT 寫一個提示,它會生成文本,無論它是否準(zhǔn)確,它都類似于人類的答案。它如何能夠理解您的提示并生成連貫且易于理解的答案?請看本文。

二、變壓器神經(jīng)網(wǎng)絡(luò)

????????該架構(gòu)旨在處理大量非結(jié)構(gòu)化數(shù)據(jù),在我們的例子中是文本。當(dāng)我們說架構(gòu)時,我們的意思本質(zhì)上是一系列并行在幾層中進行的數(shù)學(xué)運算。通過這個方程組,引入了一些創(chuàng)新,幫助我們克服了長期存在的文本生成挑戰(zhàn)。直到 5 年前,我們一直在努力解決的挑戰(zhàn)。

????????如果 GPT 已經(jīng)在這里存在了 5 年(確實 GPT 論文是在 2018 年發(fā)表的),那么 GPT 不是舊消息嗎?為什么它最近變得非常受歡迎?GPT 1、2、3、3.5 (ChatGPT ) 和 4 有什么區(qū)別?

????????所有 GPT 版本都構(gòu)建在相同的架構(gòu)上。但是,每個后續(xù)模型都包含更多參數(shù),并使用更大的文本數(shù)據(jù)集進行訓(xùn)練。顯然,后來的 GPT 版本引入了其他新穎性,尤其是在訓(xùn)練過程中,例如通過人類反饋進行強化學(xué)習(xí),我們將在本博客系列的第 3 部分中解釋。

2.1 向量、矩陣、張量。

????????所有這些花哨的詞本質(zhì)上都是包含數(shù)字塊的單位。這些數(shù)字經(jīng)過一系列數(shù)學(xué)運算(主要是乘法和求和),直到我們達(dá)到最佳輸出值,這是可能結(jié)果的概率。

????????輸出值?從這個意義上說,它是語言模型生成的文本,對吧?是的。那么,輸入值是什么?是我的提示嗎?是的,但不完全是。那么背后還有什么呢?

????????在繼續(xù)討論不同的文本解碼策略(這將是以下博客文章的主題)之前,消除歧義很有用。讓我們回到我們一開始問的基本問題。它如何理解人類語言?

2.2 生成式預(yù)訓(xùn)練變壓器。

????????GPT 縮寫代表的三個詞。我們觸摸了上面的轉(zhuǎn)換器部分,它代表了進行大量計算的架構(gòu)。但是我們到底計算了什么?你甚至從哪里得到數(shù)字?它是一個語言模型,您要做的就是輸入一些文本。如何計算文本?

數(shù)據(jù)是不可知的。所有數(shù)據(jù)都是相同的,無論是文本、聲音還是圖像形式。

2.3 令牌?

????????我們將文本拆分為小塊(令牌),并為每個塊分配一個唯一的編號(令牌ID)。模特不認(rèn)識文字、圖像或錄音。他們學(xué)會用大量的數(shù)字(參數(shù))來表示它們,這可以作為我們以數(shù)字形式說明事物特征的工具。令牌是傳達(dá)含義的語言單位,令牌 ID 是編碼令牌的唯一數(shù)字。

????????顯然,我們?nèi)绾螛?biāo)記語言可能會有所不同。詞匯化可能涉及將文本拆分為句子、單詞、單詞的一部分(子單詞)甚至單個字符。

讓我們考慮一個場景,我們的語言語料庫中有 50,000 個代幣(類似于 GPT-2 有 50,257 個)。標(biāo)記化后我們?nèi)绾伪硎具@些單位?

Sentence: "students celebrate the graduation with a big party"
Token labels: ['[CLS]', 'students', 'celebrate', 'the', 'graduation', 'with', 'a', 'big', 'party', '[SEP]']
Token IDs: tensor([[ 101, 2493, 8439, 1996, 7665, 2007, 1037, 2502, 2283,  102]])

????????上面是一個被標(biāo)記成單詞的示例句子。令牌化方法在實現(xiàn)上可能有所不同。對于我們現(xiàn)在來說,重要的是要了解我們通過其相應(yīng)的令牌 ID 獲取語言單位(標(biāo)記)的數(shù)字表示。那么,現(xiàn)在我們有了這些令牌 ID,我們是否可以簡單地將它們直接輸入到進行計算的模型中?

????????基數(shù)在數(shù)學(xué) 101 和 2493 中很重要,因為令牌表示對模型很重要。因為請記住,我們所做的主要是大塊數(shù)字的乘法和求和。因此,將數(shù)字乘以 101 或 2493 很重要。那么,我們?nèi)绾未_保用數(shù)字 101 表示的代幣的重要性不亞于 2493,只是因為我們碰巧任意地標(biāo)記了它?我們?nèi)绾卧诓粚?dǎo)致虛構(gòu)排序的情況下對單詞進行編碼?

2.4 單熱編碼。?

????????令牌的稀疏映射。獨熱編碼是我們將每個令牌投影為二進制向量的技術(shù)。這意味著向量中只有一個元素是 1(“熱”),其余元素是 0(“冷”)。

作者圖片:獨熱編碼向量示例

????????令牌用一個向量表示,該向量在我們的語料庫中具有總令牌的長度。簡單來說,如果我們的語言中有 50k 個令牌,則每個標(biāo)記都由一個向量 50k 表示,其中只有一個元素為 1,其余元素為 0。由于此投影中的每個向量僅包含一個非零元素,因此將其命名為稀疏表示。但是,您可能認(rèn)為這種方法效率非常低。是的,我們設(shè)法刪除了令牌 ID 之間的人工基數(shù),但我們無法推斷有關(guān)單詞語義的任何信息。我們無法通過使用稀疏向量來理解“派對”一詞是指慶?;顒舆€是政治組織。此外,用大小為 50k 的向量表示每個代幣將意味著總共 50k 個長度為 50k 的向量。這在所需的內(nèi)存和計算方面效率非常低。幸運的是,我們有更好的解決方案。

2.5 嵌入。

????????令牌的密集表示形式。標(biāo)記化單元通過嵌入層,其中每個標(biāo)記都轉(zhuǎn)換為固定大小的連續(xù)向量表示。例如,在 GPT 3 的情況下,中的每個標(biāo)記都由 768 個數(shù)字的向量表示。這些數(shù)字是隨機分配的,然后在看到大量數(shù)據(jù)(訓(xùn)練)后被模型學(xué)習(xí)。

Token Label: “party”
Token : 2283
Embedding Vector Length: 768
Embedding Tensor Shape: ([1, 10, 768])Embedding vector:tensor([ 2.9950e-01, -2.3271e-01,  3.1800e-01, -1.2017e-01, -3.0701e-01,-6.1967e-01,  2.7525e-01,  3.4051e-01, -8.3757e-01, -1.2975e-02,-2.0752e-01, -2.5624e-01,  3.5545e-01,  2.1002e-01,  2.7588e-02,-1.2303e-01,  5.9052e-01, -1.1794e-01,  4.2682e-02,  7.9062e-01,2.2610e-01,  9.2405e-02, -3.2584e-01,  7.4268e-01,  4.1670e-01,-7.9906e-02,  3.6215e-01,  4.6919e-01,  7.8014e-02, -6.4713e-01,4.9873e-02, -8.9567e-02, -7.7649e-02,  3.1117e-01, -6.7861e-02,-9.7275e-01,  9.4126e-02,  4.4848e-01,  1.5413e-01,  3.5430e-01,3.6865e-02, -7.5635e-01,  5.5526e-01,  1.8341e-02,  1.3527e-01,-6.6653e-01,  9.7280e-01, -6.6816e-02,  1.0383e-01,  3.9125e-02,-2.2133e-01,  1.5785e-01, -1.8400e-01,  3.4476e-01,  1.6725e-01,-2.6855e-01, -6.8380e-01, -1.8720e-01, -3.5997e-01, -1.5782e-01,3.5001e-01,  2.4083e-01, -4.4515e-01, -7.2435e-01, -2.5413e-01,2.3536e-01,  2.8430e-01,  5.7878e-01, -7.4840e-01,  1.5779e-01,-1.7003e-01,  3.9774e-01, -1.5828e-01, -5.0969e-01, -4.7879e-01,-1.6672e-01,  7.3282e-01, -1.2093e-01,  6.9689e-02, -3.1715e-01,-7.4038e-02,  2.9851e-01,  5.7611e-01,  1.0658e+00, -1.9357e-01,1.3133e-01,  1.0120e-01, -5.2478e-01,  1.5248e-01,  6.2976e-01,-4.5310e-01,  2.9950e-01, -5.6907e-02, -2.2957e-01, -1.7587e-02,-1.9266e-01,  2.8820e-02,  3.9966e-03,  2.0535e-01,  3.6137e-01,1.7169e-01,  1.0535e-01,  1.4280e-01,  8.4879e-01, -9.0673e-01,… … …                           ])

????????上面是單詞“party”的嵌入向量示例。

????????現(xiàn)在我們有 50,000x786 大小的矢量,相比之下,50,000x50,000 個獨熱編碼的效率要高得多。

????????嵌入向量將是模型的輸入。由于密集的數(shù)字表示,我們將能夠捕獲單詞的語義,相似的標(biāo)記的嵌入向量將彼此更接近。

????????如何在上下文中衡量兩個語言單元的相似性?有幾個函數(shù)可以測量相同大小的兩個向量之間的相似性。讓我們用一個例子來解釋它。

????????考慮一個簡單的例子,我們有標(biāo)記“貓”、“狗”、“汽車”和“香蕉”的嵌入向量。為了簡化起見,我們使用嵌入大小 4。這意味著將有四個學(xué)習(xí)的數(shù)字來表示每個令牌。

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity# Example word embeddings for "cat" , "dog", "car" and "banana"
embedding_cat = np.array([0.5, 0.3, -0.1, 0.9])
embedding_dog = np.array([0.6, 0.4, -0.2, 0.8])
embedding_car = np.array([0.5, 0.3, -0.1, 0.9])
embedding_banana = np.array([0.1, -0.8, 0.2, 0.4])

????????使用上面的向量,讓我們使用余弦相似度來計算相似度分?jǐn)?shù)。人類邏輯會發(fā)現(xiàn)“狗”和“貓”這個詞比“香蕉汽車”這兩個詞彼此更相關(guān)。我們可以期望數(shù)學(xué)來模擬我們的邏輯嗎?

# Calculate cosine similarity
similarity = cosine_similarity([embedding_cat], [embedding_dog])[0][0]print(f"Cosine Similarity between 'cat' and 'dog': {similarity:.4f}")# Calculate cosine similarity
similarity_2 = cosine_similarity([embedding_car], [embedding_banana])[0][0]print(f"Cosine Similarity between 'car' and 'banana': {similarity:.4f}")
"Cosine Similarity between 'cat' and 'dog': 0.9832"
"Cosine Similarity between 'car' and 'banana': 0.1511"

????????我們可以看到,單詞“cat”和“dog”的相似度得分非常高,而單詞“car”和“banana”的相似度得分非常低?,F(xiàn)在想象一下,對于我們的語言語料庫中的每 50000 個標(biāo)記,嵌入長度為 768 而不是 4 個的向量。這就是我們?nèi)绾握业奖舜讼嚓P(guān)的單詞的方式。

????????現(xiàn)在,我們來看看下面兩個語義復(fù)雜度較高的句子。

"students celebrate the graduation with a big party""deputy leader is highly respected in the party"

????????第一句和第二句中的“黨”一詞傳達(dá)了不同的含義。大型語言模型如何能夠區(qū)分作為政治組織的“政黨”和作為慶祝社會活動的“政黨”之間的區(qū)別?

????????我們能否通過 token 嵌入來區(qū)分同一個 token 的不同含義?事實是,盡管嵌入為我們提供了一系列優(yōu)勢,但它們不足以解決人類語言語義挑戰(zhàn)的全部復(fù)雜性。

????????自我關(guān)注。變壓器神經(jīng)網(wǎng)絡(luò)再次提供了解決方案。我們生成一組新的權(quán)重(參數(shù)的另一個名稱),即查詢矩陣、鍵矩陣和值矩陣。這些權(quán)重學(xué)習(xí)將標(biāo)記的嵌入向量表示為一組新的嵌入。如何?只需取原始嵌入的加權(quán)平均值即可。每個標(biāo)記“關(guān)注”輸入句子中的每個其他標(biāo)記(包括其自身),并計算一組注意力權(quán)重,或者換句話說,新的所謂“上下文嵌入”。

????????它所做的只是通過分配使用標(biāo)記嵌入計算的新數(shù)字集(注意力權(quán)重)來映射輸入句子中單詞的重要性。

????????作者提供的圖片:不同上下文中 token 的注意力權(quán)重(BertViz 注意力頭視圖)

????????上面的可視化用兩句話展示了令牌“方”對其余令牌的“關(guān)注”。連接的大膽性表明了代幣的重要性或相關(guān)性。注意和“出席”是指代一系列新的數(shù)字(注意參數(shù))及其大小的術(shù)語,我們用它來用數(shù)字表示單詞的重要性。在第一句中,“聚會”一詞最關(guān)注“慶?!币辉~,而在第二句中,“代表”一詞最受關(guān)注。這就是模型如何能夠通過檢查周圍的單詞來合并上下文。

????????正如我們在注意力機制中提到的,我們推導(dǎo)出新的權(quán)重矩陣集,即:查詢、鍵和值(簡稱 q,k,v)。它們是相同大小(通常小于嵌入向量)的級聯(lián)矩陣,被引入到體系結(jié)構(gòu)中以捕獲語言單元的復(fù)雜性。學(xué)習(xí)注意力參數(shù)是為了揭開單詞,單詞對,單詞對和單詞對對等之間的關(guān)系的神秘面紗。下面是查找最相關(guān)單詞的查詢、鍵和值矩陣的可視化效果。

????????圖片由作者提供:查詢鍵值矩陣及其最終概率圖示(BertViz q,k,v 視圖)

????????可視化將 q 和 k 向量表示為垂直波段,其中每個波段的粗體反映了其幅度。令牌之間的連接表示由注意力決定的權(quán)重,表明“party”的q向量與“is”,“deputy”和“respected”的k向量最顯著地對齊。

????????為了使注意力機制和q,k和v的概念不那么抽象,想象一下你去參加一個聚會,聽到了一首你愛上的驚人歌曲。派對結(jié)束后,您渴望找到這首歌并再次收聽,但您只記得歌詞中的 5 個單詞和歌曲旋律的一部分(查詢)。要找到這首歌,您決定瀏覽派對播放列表(鍵)并收聽(相似性功能)派對上播放的列表中的所有歌曲。當(dāng)您最終認(rèn)出這首歌時,您會記下歌曲的名稱(值)。

????????轉(zhuǎn)換器引入的最后一個重要技巧是將位置編碼添加到向量嵌入中。僅僅因為我們想捕獲單詞的位置信息。它增強了我們更準(zhǔn)確地預(yù)測下一個標(biāo)記的機會,以達(dá)到真實的句子上下文。這是基本信息,因為經(jīng)常交換單詞會完全改變上下文。例如,“蒂姆追了一輩子的云”和“云追了蒂姆一輩子”這句話在本質(zhì)上是絕對不同的。

????????到目前為止,我們在基本級別上探索的所有數(shù)學(xué)技巧,其目標(biāo)是在給定輸入令牌序列的情況下預(yù)測下一個令牌。事實上,GPT 是在一個簡單的任務(wù)上進行訓(xùn)練的,即文本生成,或者換句話說,下一個令牌預(yù)測。問題的核心是,我們衡量代幣的概率,給定它之前出現(xiàn)的代幣序列。

????????您可能想知道模型如何從隨機分配的數(shù)字中學(xué)習(xí)最佳數(shù)字。這可能是另一篇博客文章的主題,但這實際上是理解的基礎(chǔ)。此外,這是一個很好的跡象,表明您已經(jīng)在質(zhì)疑基礎(chǔ)知識。為了消除不明確性,我們使用了一種優(yōu)化算法,該算法根據(jù)稱為損失函數(shù)的指標(biāo)調(diào)整參數(shù)。此指標(biāo)是通過將預(yù)測值與實際值進行比較來計算的。該模型跟蹤指標(biāo)的機會,并根據(jù)損失值的大小調(diào)整數(shù)字。這個過程一直完成,直到給定我們在稱為超參數(shù)的算法中設(shè)置的規(guī)則,損失不能更小。一個示例超參數(shù)可以是,我們想要計算損失和調(diào)整權(quán)重的頻率。這是學(xué)習(xí)背后的基本思想。

????????我希望在這篇簡短的文章中,我至少能夠稍微清除圖片。本博客系列的第二部分將重點介紹解碼策略,即為什么您的提示很重要。第三部分也是最后一部分將專門討論 ChatGPT 成功的關(guān)鍵因素,即通過人類反饋進行強化學(xué)習(xí)。非常感謝您的閱讀。直到下次。

三、引用:

A.瓦斯瓦尼,N.沙澤爾,N.帕爾馬,J.烏什科雷特,L.瓊斯,A.N.戈麥斯,?。Kaiser和I. Polosukhin,“注意力是你所需要的一切”,神經(jīng)信息處理系統(tǒng)進展30(NIPS 2017),2017。

J. Vig,“轉(zhuǎn)換器模型中注意力的多尺度可視化”,計算語言學(xué)協(xié)會第 57 屆年會論文集:系統(tǒng)演示,第 37-42 頁,意大利佛羅倫薩,計算語言學(xué)協(xié)會,2019 年。

L. Tunstall、L. von Werra 和 T. Wolf,“使用變形金剛進行自然語言處理,修訂版”,O'Reilly Media, Inc.,2022 年 9781098136796 月發(fā)布,ISBN:<>。

1 -懶惰的程序員博客

http://aloenet.com.cn/news/27900.html

相關(guān)文章:

  • 免費網(wǎng)站服務(wù)seo運營
  • 珠寶品牌網(wǎng)站設(shè)計杭州網(wǎng)絡(luò)推廣網(wǎng)絡(luò)優(yōu)化
  • 衡水做wap網(wǎng)站互聯(lián)網(wǎng)培訓(xùn)
  • 物流網(wǎng)站建設(shè)方案ks免費刷粉網(wǎng)站推廣
  • 旅游網(wǎng)站做模板素材鏈接轉(zhuǎn)二維碼
  • WordPress 推酷 主題深圳百度推廣排名優(yōu)化
  • 彩票推廣網(wǎng)站如何做今日新聞快報
  • 住房城鄉(xiāng)建設(shè)管理委員官方網(wǎng)站小程序開發(fā)公司哪里強
  • 常州想做個企業(yè)的網(wǎng)站找誰做東莞推廣系統(tǒng)
  • 廣告文化網(wǎng)站建設(shè)2023新聞大事件摘抄
  • 韓國b2c電商網(wǎng)站百度排名點擊器
  • 網(wǎng)站建設(shè)與管理電子教程廣告公司是做什么的
  • 酒店網(wǎng)站開發(fā)合同哈爾濱最新信息
  • 甘肅網(wǎng)站建設(shè)開發(fā)百度大搜推廣開戶
  • 古典asp網(wǎng)站源碼百度客服中心人工在線電話
  • 石家莊做外貿(mào)網(wǎng)站seo搜索引擎優(yōu)化關(guān)鍵詞
  • seo全套視頻教程信息流優(yōu)化
  • 電商購物網(wǎng)站建設(shè)杭州網(wǎng)站優(yōu)化流程
  • 網(wǎng)站設(shè)計如何做策劃黃頁推廣平臺有哪些
  • 豐臺網(wǎng)站建設(shè)推廣seo優(yōu)化關(guān)鍵詞的方法
  • 剛做的網(wǎng)站怎么在百度搜到西安霸屏推廣
  • 怎樣開發(fā)游戲app軟件優(yōu)化推廣網(wǎng)站怎么做最好
  • 如何建英文網(wǎng)站全網(wǎng)營銷式網(wǎng)站
  • 電子商務(wù)網(wǎng)站建設(shè)商城網(wǎng)站百度網(wǎng)站推廣一年多少錢
  • 中企動力做的網(wǎng)站被鏡像怎么能在百度上做推廣
  • 招聘網(wǎng)站的SEO怎么做大數(shù)據(jù)營銷經(jīng)典案例
  • 網(wǎng)站備案需要花錢嗎東莞網(wǎng)絡(luò)推廣平臺
  • 網(wǎng)站開發(fā)的就業(yè)寧波網(wǎng)絡(luò)推廣軟件
  • 云南做網(wǎng)站多少錢市場調(diào)研方案怎么寫
  • 營銷技巧第三季在線觀看鄭州厲害的seo優(yōu)化顧問