聊城網(wǎng)站改版搜索引擎營(yíng)銷(xiāo)與seo優(yōu)化
一、輸入
輸入一句話:Hello CYZLAB the inspired world
每個(gè)單詞為一個(gè)token
二、Embedding
這里的詞向量維度為6,矩陣的行數(shù)為token數(shù),列數(shù)是詞向量的維度
這列是注釋不算 | ||||||
hello | 1 | 2 | 2 | 6 | 9 | 4 |
CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
the | 2 | 2 | 2 | 5 | 9 | 6 |
inspired | 1 | 3 | 2 | 4 | 4 | 0 |
world | 4 | 3 | 1 | 2 | 7 | 3 |
token數(shù)X詞向量維度
三、位置嵌入
與Embedding相同
四、Q、K、V
?Q、K、V的權(quán)重:權(quán)重權(quán)重的行數(shù)要與詞向量的維度相同,列數(shù)任意
如果:權(quán)重的權(quán)重的尺寸為:詞向量的維度X7
Q、K、V的尺寸:token數(shù)X7(上面我們自定義的列數(shù))
五、自注意力機(jī)制
-
每個(gè)詞之間的關(guān)系(Q*K^T):token數(shù)X?token數(shù)
-
關(guān)系與V的加權(quán)和(Q*K^T)*V:token數(shù)X7
六、添加線性層
讓自注意機(jī)制的結(jié)果與Embedding的聯(lián)合的矩陣可以按位相加?
線性層的權(quán)重尺寸:7X詞向量的維度
線性層的轉(zhuǎn)換結(jié)果:token數(shù)X詞向量維度?
?七、add和歸一化
尺寸:token數(shù)X詞向量維度?
此后的尺寸都是這樣的:token數(shù)X詞向量維度?