當(dāng)前位置：首頁 > news >正文

濟(jì)南做網(wǎng)站公司xywlcn網(wǎng)站搜索引擎優(yōu)化報告

news 2025/7/5 20:28:13

濟(jì)南做網(wǎng)站公司xywlcn,網(wǎng)站搜索引擎優(yōu)化報告,蘭州網(wǎng)站建設(shè)推薦q479185700頂上,環(huán)球新軍事LLMs在回答各種復(fù)雜問題時，有時會“胡言亂語”，產(chǎn)生所謂的幻覺。解決這一問題的初始步驟就是創(chuàng)建高質(zhì)量幻覺數(shù)據(jù)集訓(xùn)練模型以幫助檢測、緩解幻覺。但現(xiàn)有的幻覺標(biāo)注數(shù)據(jù)集，因?yàn)轭I(lǐng)域窄、數(shù)量少，加上制作成本高、標(biāo)注人員水平不一…

LLMs在回答各種復(fù)雜問題時，有時會“胡言亂語”，產(chǎn)生所謂的幻覺。解決這一問題的初始步驟就是創(chuàng)建高質(zhì)量幻覺數(shù)據(jù)集訓(xùn)練模型以幫助檢測、緩解幻覺。

但現(xiàn)有的幻覺標(biāo)注數(shù)據(jù)集，因?yàn)轭I(lǐng)域窄、數(shù)量少，加上制作成本高、標(biāo)注人員水平不一，所以很難變得強(qiáng)大。

為了解決這個問題，上海AI lab設(shè)計了一個迭代自訓(xùn)練框架——ANAH-v2，它像滾雪球一樣，一邊擴(kuò)大幻覺檢測的數(shù)據(jù)集，一邊提高標(biāo)注者的準(zhǔn)確性。

這個框架利用期望最大化算法，每次循環(huán)都會先用現(xiàn)有的幻覺標(biāo)注工具給新數(shù)據(jù)打上“幻覺”標(biāo)簽，然后用這些新數(shù)據(jù)訓(xùn)練一個更厲害的標(biāo)注工具。

通過迭代，檢測工具越來越強(qiáng)，數(shù)據(jù)集也越來越大。一個僅有7B參數(shù)的幻覺標(biāo)注模型（89.55%）超越了GPT-4的表現(xiàn)（86.97%），并且在幻覺檢測基準(zhǔn)HaluEval和HalluQA上獲得了新的SOTA！

論文標(biāo)題:
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

論文鏈接：
https://arxiv.org/pdf/2407.04693

方法

1. 善于分析的幻覺標(biāo)注器

幻覺標(biāo)注器的目標(biāo)是識別模型響應(yīng)中的幻覺，在本文中該過程分為三個階段，更貼近人類認(rèn)知判斷過程：

事實(shí)存在判斷：標(biāo)注器評估提供的句子是否包含可驗(yàn)證的事實(shí)。如果沒有事實(shí)內(nèi)容，該句子被歸類為“無事實(shí)”，無需進(jìn)一步標(biāo)注。
參考信息提取：標(biāo)注器從與問題和答案相關(guān)的文檔中提取相關(guān)參考點(diǎn)。
幻覺類型判斷：標(biāo)注器根據(jù)提取的參考點(diǎn)確定幻覺類型。如果句子與參考點(diǎn)一致，則分類為“無幻覺”。如果與參考點(diǎn)矛盾，則視為“矛盾幻覺”。如果缺乏支持證據(jù)且無法驗(yàn)證，則標(biāo)記為“不可驗(yàn)證幻覺”。

以上三個階段將在訓(xùn)練數(shù)據(jù)中形成多輪對話，用于后續(xù)模型訓(xùn)練。

2. 最大期望（EM）算法

本文通過最大期望算法同時擴(kuò)展數(shù)據(jù)集和提高標(biāo)注準(zhǔn)確性。對于輸入集合，需要同時估計兩個隱藏變量，即輸出集合和模型參數(shù)。具體而言，定義幻覺標(biāo)注器的輸入來自輸入集合，包括一個問題、一個待標(biāo)注的句子和一個參考文檔。預(yù)期輸出包括事實(shí)信息、參考文檔中的關(guān)鍵參考點(diǎn)和幻覺類型。通過交替執(zhí)行步和步來最大化的對數(shù)似然估計以更新模型參數(shù)：

E步：為了提高的估計準(zhǔn)確性和穩(wěn)定性，作者引入了自一致性方法，這提供了分布的更穩(wěn)健表示。對于每個輸入，進(jìn)行多次采樣以產(chǎn)生個獨(dú)立的輸出，其中第個輸出樣本由事實(shí)信息()、參考點(diǎn)()和幻覺類型()組成。使用自一致性度量從所有輸出中選擇最具代表性的樣本：

在選擇過程中，依次考慮幻覺類型、參考點(diǎn)和事實(shí)信息。通過對所有樣本進(jìn)行多數(shù)投票來確定最常見的幻覺類型，記為。然后，從包含的輸出中獲取相應(yīng)的，形成候選參考集合。通過比較余弦相似性選擇最“一致”的參考點(diǎn)。對于中的每個，首先計算它與中其他元素的平均余弦相似性。之后，選擇平均余弦相似性最高的參考點(diǎn)：。最后，利用(,?)，可以唯一地選擇相應(yīng)的。

M步：在E步的穩(wěn)健估計之后，M步更新模型參數(shù)以最大化所選輸出的似然。在第次迭代中將參數(shù)更新策略公式化為：

3. 多維數(shù)據(jù)縮放

基于EM算法，本文框架以迭代方式運(yùn)行，逐步擴(kuò)展數(shù)據(jù)集，包括三個階段：

階段1：種子數(shù)據(jù)和基礎(chǔ)標(biāo)注器本文利用ANAH數(shù)據(jù)集作為種子數(shù)據(jù)，其中包含超過700個主題和大約4300個由LLM生成的問題和回答。對于每個回答，ANAH通過人工參與的方法為每個句子提供幻覺類型。本文使用第一節(jié)中描述的標(biāo)注方法，用這些種子數(shù)據(jù)訓(xùn)練初始幻覺標(biāo)注器，稱為ANAH-v2階段1。

階段2：在回答維度上擴(kuò)展在階段1中，對于每個問題，ANAH提供GPT-3.5基于參考文檔生成的回答，以及InternLM-7B在沒有參考文檔的情況下生成回答。

本文首先通過收集13個不同規(guī)模和系列的開源模型對相同問題的回答來擴(kuò)展數(shù)據(jù)集的模型回答。對于每個模型，收集有無參考文檔的回答。在過濾掉相似的模型回答后，這些回答使用ANAH-v2階段1的自一致性pipeline逐句進(jìn)行標(biāo)注。新標(biāo)注的數(shù)據(jù)與種子數(shù)據(jù)結(jié)合，用于訓(xùn)練ANAH-v2階段2。

階段3：在主題維度上擴(kuò)展本文沿四個類別擴(kuò)展主題覆蓋：地點(diǎn)、人物、事件和事物，與ANAH的配置平行。對于每個主題，根據(jù)提供的參考文檔生成幾個問題。然后，使用階段2中的相同方法，收集多個模型的回答，并按照階段2中使用ANAH-v2階段2標(biāo)注器的相同程序進(jìn)行標(biāo)注。最終數(shù)據(jù)集結(jié)合前幾個階段的數(shù)據(jù)，用于訓(xùn)練最終版本的標(biāo)注器。

總體統(tǒng)計

最終數(shù)據(jù)集涵蓋超過3000個主題，約196k個模型回答和約822k個標(biāo)注句子，包含英文和中文。

主題覆蓋名人、事件、地點(diǎn)和事物，涉及廣泛領(lǐng)域，如政治、健康和體育。該數(shù)據(jù)集規(guī)模龐大，覆蓋全面。

實(shí)驗(yàn)與分析

本文采用了預(yù)訓(xùn)練的InternLM2-7B模型來對幻覺標(biāo)注器進(jìn)行微調(diào)，使用ANAH數(shù)據(jù)集的子集作為測試集。利用F1和準(zhǔn)確率評估標(biāo)注器在預(yù)測幻覺類型方面的性能，還使用RougeL和BertScore 來將生成的文本與人類參考文本進(jìn)行比較，以考慮語法、連續(xù)性、順序和語義方面。實(shí)驗(yàn)結(jié)果如下表：

上表的最后三行展示了ANAH-v2在數(shù)據(jù)擴(kuò)展各階段的性能。隨著數(shù)據(jù)集數(shù)量的增加，其性能逐步提高。這一趨勢突顯了幻覺標(biāo)注框架的可擴(kuò)展性和有效性。

值得注意的是，ANAH-v2在第二階段的F1值達(dá)到87.78%，準(zhǔn)確率達(dá)到88.03%，超越了GPT-4。最終，在第三階段，我們達(dá)到了89.30%的F1值和89.55%的準(zhǔn)確率。

除此之外，ANAH-v2在第一階段的準(zhǔn)確率（84.85%）已超過參數(shù)為20B的ANAH-20B（81.01%），而其參數(shù)僅為7B。這種優(yōu)越性能歸功于前文提到的善于分析的幻覺標(biāo)注器的設(shè)計，得到了非常豐富的多輪對話。

消融實(shí)驗(yàn)

自一致性的影響

當(dāng)標(biāo)注器模型在各個數(shù)據(jù)擴(kuò)展階段使用相同的訓(xùn)練數(shù)據(jù)時，如下表所示，采用自一致性推理策略（w/ SC）的性能始終優(yōu)于不采用自一致性策略（w/o SC），即對每個輸入只生成一次。因此，自一致性方法提高了幻覺標(biāo)注估計的準(zhǔn)確性和穩(wěn)定性。

漸進(jìn)數(shù)據(jù)縮放的影響

在漸進(jìn)方法中，第二階段更新的標(biāo)注器用于標(biāo)注額外主題的響應(yīng)，不斷豐富訓(xùn)練數(shù)據(jù)。相比之下，在非漸進(jìn)方法中，第一階段的基本標(biāo)注器用于生成第三階段額外訓(xùn)練數(shù)據(jù)的標(biāo)注。

在相同規(guī)模的訓(xùn)練數(shù)據(jù)下，使用非漸進(jìn)數(shù)據(jù)擴(kuò)展訓(xùn)練的標(biāo)注器性能不如使用漸進(jìn)數(shù)據(jù)擴(kuò)展訓(xùn)練的標(biāo)注器。

訓(xùn)練策略的影響

在默認(rèn)訓(xùn)練過程中，將新標(biāo)注的數(shù)據(jù)與舊數(shù)據(jù)混合以重新訓(xùn)練標(biāo)注器?；蛘邇H使用新標(biāo)注的數(shù)據(jù)來進(jìn)一步訓(xùn)練上一階段的標(biāo)注器模型。

結(jié)果表明，混合訓(xùn)練數(shù)據(jù)的訓(xùn)練策略比僅用新數(shù)據(jù)進(jìn)一步訓(xùn)練效果更好。在各個訓(xùn)練階段整合不同質(zhì)量的數(shù)據(jù)提高了標(biāo)注器模型的魯棒性。

評估ANAH-v2模型在幻覺檢測能力的泛化性

本文進(jìn)一步驗(yàn)證了微調(diào)模型ANAH-v2在其他幻覺檢測數(shù)據(jù)集HaluEval（英文）和HalluQA（中文）上的有效性。讓ANAH-v2分別判斷回答中是否包含幻覺。

結(jié)果顯示，標(biāo)注模型ANAH-v2在HaluEval和HalluQA上均取得了顯著的準(zhǔn)確率。ANAH-v2第三階段在zero-shot設(shè)置下分別在HaluEval（81.54%）和HalluQA（94.44%）上取得了新的SOTA，這突顯了ANAH-v2的泛化能力。此外，ANAH-v2第三階段的表現(xiàn)優(yōu)于第一階段和第二階段的標(biāo)注器，這進(jìn)一步證明了數(shù)據(jù)擴(kuò)展策略在處理不熟悉回答時有效地穩(wěn)定了性能。

ANAH-v2數(shù)據(jù)集可作為幻覺評估基準(zhǔn)

ANAH-v2數(shù)據(jù)集和標(biāo)注器可以作為現(xiàn)有模型生成文本中幻覺水平的基準(zhǔn)。作者評估了各種不同規(guī)模的LLMs在ANAH-v2數(shù)據(jù)集的上性能。

所有模型在英文中的表現(xiàn)優(yōu)于中文，這突顯了需要進(jìn)一步研究以理解和減少語言依賴的差異。
所有模型在使用參考文檔時的性能都優(yōu)于不使用參考文檔時的性能。Qwen1.5-14B在使用參考文檔時實(shí)現(xiàn)了最低的幻覺率（5.33%），而Deepseek-67B在沒有提供參考文檔時實(shí)現(xiàn)了最低的幻覺率（47.17%）。

ANAH-v2標(biāo)注器可用于緩解幻覺

除了用于測量幻覺水平外，ANAH-v2還可以用于緩解幻覺。本文使用了兩個模型InternLM2-7B和LLaMA2-7B，通過top-k采樣（k=40）生成36個候選響應(yīng)，然后使用ANAH-v2標(biāo)注器對這些響應(yīng)進(jìn)行重新排序，選擇具有最低幻覺率的最佳響應(yīng)。

為了量化幻覺程度，使用了RougeL、BertScore、NLI和QuestionEval指標(biāo)測量生成的響應(yīng)與標(biāo)準(zhǔn)答案和/或參考文檔之間的一致性。

結(jié)果顯示，通過ANAH-v2標(biāo)注器進(jìn)行重新排序后，幻覺水平明顯下降。LLaMA2-7B的NLI指標(biāo)顯著提高，從25.00%上升到37.01%。

結(jié)語

本文通過迭代自我訓(xùn)練，逐步擴(kuò)大數(shù)據(jù)集的多樣性和規(guī)模，并提高幻覺標(biāo)注器的準(zhǔn)確性。最終得到的ANAH-v2僅用7B參數(shù)在各種幻覺檢測基準(zhǔn)測試中首次超過了GPT-4，并在第三方幻覺檢測基準(zhǔn)測試中表現(xiàn)出色。

ANAH-v2不僅提供了一個基于的擴(kuò)展數(shù)據(jù)集的自動幻覺評估基準(zhǔn)，為未來幻覺緩解研究鋪平了道路，還通過簡單的重新排序策略展示了其在幻覺緩解中的潛力。相信ANAH-v2還可以為更細(xì)粒度的RLHF等更多幻覺緩解策略提供幫助。

查看全文

http://aloenet.com.cn/news/41115.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡