中衛(wèi)市網(wǎng)站開發(fā)制作網(wǎng)址域名大全
文本嵌入是各項NLP任務(wù)的基礎(chǔ),用于將自然語言轉(zhuǎn)換為向量表示?,F(xiàn)有的大部分方法通常采用復(fù)雜的多階段訓(xùn)練流程,先在大規(guī)模數(shù)據(jù)上訓(xùn)練,再在小規(guī)模標(biāo)注數(shù)據(jù)上微調(diào)。此過程依賴于手動收集數(shù)據(jù)制作正負樣本對,缺乏任務(wù)的多樣性和語言多樣性。
此外,大部分方法采用BERT作為編碼器,如非常經(jīng)典的Sentence-BERT和SimCSE通過在推理數(shù)據(jù)集上對BERT進行微調(diào)學(xué)習(xí)文本嵌入。
但現(xiàn)在LLMs技術(shù)發(fā)展得如火如荼,能否用LLMs來克服現(xiàn)有方法的限制,升級文本嵌入方法呢?
當(dāng)然可以!
最近,微軟發(fā)布了一種新穎的文本嵌入方法,使用專有的LLMs為93種語言中各種文本嵌入任務(wù)生成合成數(shù)據(jù),并且涉及了多個任務(wù)場景。
微軟使用了Mistral-7B對合成數(shù)據(jù)和標(biāo)記數(shù)據(jù)進行混合訓(xùn)練,**成功登頂Huggingface排行榜,比之前的方法高2%**。
論文標(biāo)題:
Improving Text Embeddings with Large Language Models
論文鏈接:
https://arxiv.org/pdf/2401.00368.pdf
模型:
https://huggingface.co/intfloat/e5-mistral-7b-instruct
數(shù)據(jù):
https://huggingface.co/datasets/andersonbcdefg/synthetic_retrieval_tasks
方法
合成數(shù)據(jù)生成
作者使用GPT-4集思廣益產(chǎn)生一系列潛在的檢索任務(wù),然后為每個任務(wù)生成(查詢,正例,困難反例)三元組,如下圖所示。
為了生成多樣化的合成數(shù)據(jù),作者提出了一個簡單的分類法,將嵌入任務(wù)分為幾個組,并針對每個組應(yīng)用不同的提示模板:
非對稱任務(wù):包括查詢和文檔在語義上相關(guān)但并不是互相改寫的任務(wù)。根據(jù)查詢和文檔的長度,進一步分為四個子組:短-長匹配、長-短匹配、短-短匹配和長-長匹配。短-長匹配任務(wù)涉及短查詢和長文檔,是商業(yè)搜索引擎中的典型情況。
對稱任務(wù):涉及具有相似語義但表面形式不同的查詢和文檔。包括單語語義文本相似性(STS)和雙語檢索。
訓(xùn)練
給定一個相關(guān)的查詢-文檔配對(,),將以下指令模板應(yīng)用于原始查詢,生成一個新的查詢?:
其中,嵌入任務(wù)的一句話描述的占位符。
給定一個預(yù)訓(xùn)練的LLM,將[EOS]標(biāo)記附加到查詢和文檔的末尾,然后將它們輸入LLM,通過獲取最后一層的[EOS]向量來獲得查詢和文檔的嵌入()。
為了訓(xùn)練嵌入模型,采用了標(biāo)準(zhǔn)的InfoNCE損失函數(shù)L,使用批內(nèi)負樣本和困難負樣本進行計算。
其中計算查詢q和文檔d之間匹配分?jǐn)?shù)的函數(shù),本文采用溫度縮放余弦相似度函數(shù),是溫度超參,在本實驗中設(shè)為0.02。
實驗
合成數(shù)據(jù)統(tǒng)計
本文一共生成了500k個示例,其中包含150k個獨特指令。25%由GPT-3.5-Turbo生成,其余由GPT-4生成。總的token消耗約為180M。主要語言為英語,覆蓋了共計93種語言。對于75種低資源語言,平均每種語言約有1k個示例。
模型微調(diào)與評估
模型選用Mistral-7b進行1個epoch微調(diào),評估基準(zhǔn)選用MTEB基準(zhǔn)測試。
訓(xùn)練數(shù)據(jù):利用生成的合成數(shù)據(jù)和包含13個公共數(shù)據(jù)集的集合, 在采樣后得到約180萬個樣例。為了與一些先前的工作進行公平比較,還報告了僅有標(biāo)簽監(jiān)督的MS-MARCO數(shù)據(jù)集的結(jié)果。
主要結(jié)果
▲表1
如上表所示,本文提出的模型“E5mistral-7b + full data”在MTEB基準(zhǔn)測試中獲得了最高的平均得分,比之前的最先進模型高出2.4個點。
在“僅使用合成數(shù)據(jù)”的設(shè)置中,沒有使用標(biāo)記數(shù)據(jù)進行訓(xùn)練,其性能仍然相當(dāng)有競爭力。生成式語言建模和文本嵌入都需要模型對自然語言有深刻的理解,。基于嵌入任務(wù)定義,一種真正強大的輕量級模型應(yīng)該能夠自動生成訓(xùn)練數(shù)據(jù),然后通過輕量級微調(diào)轉(zhuǎn)換為嵌入模型。
▲表2
在表2中,作者還對幾個商業(yè)文本嵌入模型進行了比較。然而,由于這些模型缺乏透明度和文檔說明,不可能做到完全公平的比較。作者主要關(guān)注BEIR基準(zhǔn)測試的檢索性能,因為RAG是未來LLMs應(yīng)用的重要趨勢之一。正如表2所示,本文的模型在性能上明顯優(yōu)于當(dāng)前的商業(yè)模型。
多語言檢索
為了評估模型的多語言能力,作者在包含18種語言的MIRACL數(shù)據(jù)集上進行了評估。該數(shù)據(jù)集包括人工注釋的查詢和相關(guān)性判斷。
▲表3
如表3所示,該模型在高資源語言特別是英語上超過mE5large。對于低資源語言,本文的模型仍然不夠優(yōu)秀。這是因為Mistral-7B主要預(yù)訓(xùn)練于英語數(shù)據(jù),未來將可以使用多語言LLM彌合這一差距。
除此之外,作者還探討分析了幾個問題。
分析
1. 對比預(yù)訓(xùn)練真的重要嗎?
弱監(jiān)督對比性預(yù)訓(xùn)練是現(xiàn)有文本嵌入模型取得成功的關(guān)鍵因素之一。例如,將隨機裁剪的片段作為預(yù)訓(xùn)練的正樣本對待,或者從各種來源收集并篩選文本對。
那么對于LLMs而言,對比預(yù)訓(xùn)練還有用嗎?
如上圖所示,對比預(yù)訓(xùn)練有益于XLM-Rlarge,在相同數(shù)據(jù)上微調(diào)時,其檢索性能提高了8.2個點,與之前的研究結(jié)果一致。
然而,對于基于Mistral-7B的模型,對比預(yù)訓(xùn)練對模型質(zhì)量幾乎沒有影響。這意味著廣泛的自回歸預(yù)訓(xùn)練使LLMs能夠獲取良好的文本表示,只需要進行最少限度的微調(diào)即可將其轉(zhuǎn)化為有效的嵌入模型,而無需對比預(yù)訓(xùn)練。
個性化密碼檢索
為了評估模型的長上下文能力,作者引入了一項新的合成任務(wù)——個性化密碼檢索,如下圖所示,包含多個文件,每個文件都有一個獨特的人名和一個隨機的密碼,插入在隨機的位置。任務(wù)是從100個候選項中找回包含給定個人密碼的文件。通過這個過程測試模型將長上下文中的密碼信息編碼到嵌入中的能力。
作者通過改變滑動窗口大小和RoPE旋轉(zhuǎn)基,比較了不同變體的性能。
-
結(jié)果表明,默認(rèn)配置下,使用4k滑動窗口在4k個token內(nèi)達到了100%的準(zhǔn)確率,但隨著上下文長度的增加,準(zhǔn)確率迅速下降。
-
將滑動窗口大小天真地擴展到32k會導(dǎo)致更差的性能。
-
通過將RoPE旋轉(zhuǎn)基準(zhǔn)更改為,模型可以在32k個標(biāo)記內(nèi)實現(xiàn)超過90%的準(zhǔn)確率。但在短上下文不太適用。
結(jié)論
這篇工作證明了通過LLMs技術(shù),文本嵌入的質(zhì)量可以得到顯著提升。?研究人員使用了專有的LLMs(如GPT-4),在多種語言環(huán)境下生成了多樣化的合成數(shù)據(jù),并結(jié)合Mistral模型強大的語言理解能力,在競爭激烈的MTEB基準(zhǔn)測試中取得了SOTA。與現(xiàn)有的多階段方法相比,既簡單又高效,不再需要中間預(yù)訓(xùn)練的環(huán)節(jié)。
用網(wǎng)友的話說就是“Amazing Amazing Amazing!”,省去了人工采集數(shù)據(jù)的繁瑣步驟,每個人都可以輕松地生成自己的數(shù)據(jù)集,并訓(xùn)練強大的嵌入模型。?語義檢索模型不給力導(dǎo)致生成模型性能受影響的局面,總算有希望翻篇兒了!