公司做網(wǎng)站找誰做網(wǎng)站的公司seo推廣公司教程
論文鏈接
RAG的一個(gè)棘手問題是不知道該召回多少chunk,少了可能丟信息,多了會(huì)引入噪聲信息。雖然有self-reasoning等自我反思的解決辦法,但是整體鏈路太長,延遲高,不利于工業(yè)落地。
雖然無法面對整個(gè)服務(wù)場景,但是對于知識(shí)密集型數(shù)據(jù),可以用Speculative RAG解決。所謂知識(shí)密集,即你要問的問題只集中在少數(shù)幾個(gè)chunk里,不需要長篇大論地找答案,例如一個(gè)章節(jié)就解決一個(gè)事,你要問這個(gè)事,把這個(gè)章節(jié)拿來就全解決了。
對于這種數(shù)據(jù),Speculative RAG加速的辦法是:(舉個(gè)例子)把72b或32b的大模型換成多個(gè)7b模型,稱為draft。RAG檢索到100個(gè)chunk,先用k-means把100個(gè)chunk聚類,然后隨機(jī)地把各個(gè)桶里的信息分到每個(gè)draft模型,多個(gè)draft模型并行推理。
!!!因?yàn)橛昧诵∧P?#xff0c;所以必須保證問題足夠簡單。
并行推理的結(jié)果作為draft被后續(xù)模型評測,例如忠誠度、相關(guān)度,評測結(jié)果最好的作為最終答案。