怎么做用戶調(diào)研網(wǎng)站軟文
一個聊天機(jī)器人需要大量的訓(xùn)練數(shù)據(jù),以便在無需人工干預(yù)的情況下快速解決用戶的詢問。然而,聊天機(jī)器人開發(fā)的主要瓶頸是獲取現(xiàn)實的、面向任務(wù)的對話數(shù)據(jù)來訓(xùn)練這些基于機(jī)器學(xué)習(xí)的系統(tǒng)。
我們整理了訓(xùn)練聊天機(jī)器人所需的對話數(shù)據(jù)集,包括問答數(shù)據(jù)、客戶支持?jǐn)?shù)據(jù)、對話數(shù)據(jù)和多語言數(shù)據(jù)。
用于聊天機(jī)器人訓(xùn)練的問答數(shù)據(jù)集
問題-答案數(shù)據(jù)集:該語料庫包括維基百科文章、從中手動生成的事實問題以及這些問題的手動生成的答案,用于學(xué)術(shù)研究。
WikiQA 語料庫:一組公開可用的問題和句子對,為開放域問答研究而收集和注釋。為了反映一般用戶的真實信息需求,他們使用Bing查詢?nèi)罩咀鳛閱栴}來源。每個問題都鏈接到可能有答案的維基百科頁面。
雅虎語言數(shù)據(jù):此頁面包含來自雅虎雅虎問答的手動策劃的 QA 數(shù)據(jù)集。
TREC QA Collection:TREC 自 1999 年以來就有了問答軌道。在每個軌道中,任務(wù)都被定義為系統(tǒng)要檢索包含開放域、封閉類問題答案的小文本片段。