国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

網(wǎng)站建設(shè)辶金手指排名十一seo教程seo優(yōu)化

網(wǎng)站建設(shè)辶金手指排名十一,seo教程seo優(yōu)化,建設(shè)銀行官方門戶網(wǎng)站,撫州建設(shè)銀行網(wǎng)站可以說,AI 初創(chuàng)公司 LinkSoul.Al 的這些開源項目讓海外開源大模型在國內(nèi)的普及和推廣速度與國際幾乎保持了一致。 7 月 19 日,Meta 終于發(fā)布了免費可商用版本 Llama 2,讓開源大模型領(lǐng)域的格局發(fā)生了巨大變化。 Llama 2 模型系列包含 70 億、…

可以說,AI 初創(chuàng)公司 LinkSoul.Al 的這些開源項目讓海外開源大模型在國內(nèi)的普及和推廣速度與國際幾乎保持了一致。

7 月 19 日,Meta 終于發(fā)布了免費可商用版本?Llama 2,讓開源大模型領(lǐng)域的格局發(fā)生了巨大變化。

Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體,相比上一代的訓練數(shù)據(jù)增加了 40%,在包括推理、編碼、精通性和知識測試等許多外部基準測試中展示出了優(yōu)越的表現(xiàn),且支持多個語種。

美中不足的是,Llama 2 語料庫仍以英文(89.7%)為主,而中文僅占據(jù)了其中的 0.13%。這導致 Llama 2 很難完成流暢、有深度的中文對話。

圖片

中文版 Llama2 開源大模型創(chuàng)下社區(qū)「首個」

好消息是,在 Meta Al 開源 Llama 2 模型的次日,開源社區(qū)首個能下載、能運行的開源中文 LLaMA2 模型就出現(xiàn)了。該模型名為「Chinese Llama 2 7B」,由國內(nèi) AI 初創(chuàng)公司 LinkSoul.Al 推出。

圖片

僅僅兩周時間,該項目在 Hugging Face 上收獲過萬次下載,并在 GitHub 上獲得了 1200 Stars。

據(jù)項目介紹,Chinese-Llama-2-7b 開源的內(nèi)容包括完全可商用的中文版 Llama2 模型及中英文 SFT 數(shù)據(jù)集,輸入格式嚴格遵循 llama-2-chat 格式,兼容適配所有針對原版 llama-2-chat 模型的優(yōu)化。

項目地址:

https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

圖片

目前,普通用戶可以在線體驗「Chinese Llama-2 7B Chat」。

試用地址:

https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

比如你能夠以英文提問,并讓它用中文回答:

圖片

或者直接中文對話,它也能以中文實現(xiàn)準確、流暢的回答:

圖片

主打的就是一個中英文靈活切換:

圖片

有人已上手,表示運行良好:

圖片

圖片

圖源:https://twitter.com/roya10x7/status/1682781475458957315?s=20

語言模型之外,繼續(xù)開源兩個中文多模態(tài)大模型

在推出首個開源 Llama2 中文語言大模型之后,LinkSoul.AI 團隊將目光投向了目前全球尚外于發(fā)展初期的語音文本多模態(tài)大模型和圖文大模型,并再次率先開源了相關(guān)的模型,提供國內(nèi)開發(fā)者免費下載、自由商用。

本次開源的兩個中文多模態(tài)大模型,包括如下:

  • 由 LinkSoul.Al 團隊牽頭,北京智源人工智能研究院、北京大學、零一萬物等國內(nèi)頭部頂尖人工智能團隊通力合作的第一個支持中英雙語、語音到文本的多模態(tài)開源對話模型 (LLaSM)

  • 第一個基于 Llama 2 的支持中英文雙語視覺到文本的多模態(tài)模型 (Chinese-LLaVA)?

兩個模型都基于 Apache-2.0 協(xié)議開源,完全可商用。

LinkSoul.Al 開發(fā)團隊負責人史業(yè)民表示,「放眼全球,目前如何讓『模型聽世界、看世界』仍然沒有可靠的開源模型可用。我們希望能夠盡微薄之力,讓中國大模型生態(tài)距離國際領(lǐng)先標準再近一些?!?/p>

語音到文本多模態(tài)開源對話模型 (LLaSM)

LinkSoul.AI 開源了可商用的中英文雙語語音 - 語言助手 LLaSM 以及中英文語音 SFT 數(shù)據(jù)集 LLaSM-Audio-Instructions。LLaSM 是首個支持中英文語音 - 文本多模態(tài)對話的開源可商用對話模型。

相較以往的傳統(tǒng)方案,LLaSM 能夠通過便捷的語音輸入的交互方式,大幅改善過往以文本為輸入的大模型的使用體驗,同時有效避免基于 ASR 解決方案的繁瑣流程以及可能引入的錯誤。

圖片

??項目地址:https://github.com/LinkSoul-AI/LLaSM

??數(shù)據(jù)集:?https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

下面是 LLaSM 的一個語音 - 文本對話示例。

圖片

LLaSM 也有相應(yīng)的文獻介紹。

圖片

模型、代碼和數(shù)據(jù)地址:

https://huggingface.co/spaces/LinkSoul/LLaSM

圖像到文本多模態(tài)開源對話模型 (Chinese LLaVA)

LinkSoul.AI 開源了可商用的中英文雙語視覺 - 語言助手 Chinese-LLaVA 以及中英文視覺 SFT 數(shù)據(jù)集 Chinese-LLaVA-Vision-Instructions,支持中英文視覺 - 文本多模態(tài)對話的開源可商用對話模型。

圖片

??項目地址:https://github.com/LinkSoul-AI/Chinese-LLaVA

??數(shù)據(jù)集:?https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

下面是 Chinese LLaVA 的一個視覺 - 文本對話示例。

圖片

??模型、代碼和數(shù)據(jù)地址:

https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

多模態(tài)模型統(tǒng)一架構(gòu)解讀

大語言模型在很多方面展現(xiàn)了強大的能力,也在一定程度上讓人們看到了實現(xiàn)通用人工智能(AGI)的希望。多模態(tài)模型提供了不同模態(tài)之間信息交互的渠道,使得視覺信息、語音信息等能和文本語義信息互為補充,讓大語言模型能聽到世界、看到世界,從而向 GI 又前進一步。

因此,訓練多模態(tài)模型的重點是如何融合互補不同模態(tài)間的信息,并充分利用現(xiàn)有大語言模型能力。LinkSoul.AI 開源的語音 - 語言多模態(tài)模型和視覺 - 語言多模態(tài)模型統(tǒng)一采用下圖所示框架

圖片

首先通過模態(tài)編碼器編碼不同模態(tài)數(shù)據(jù)特征,緊接著在多模態(tài)特征對齊的預(yù)訓練階段學習模態(tài)適配器(Adaptor),將不同模態(tài)的輸入特征與大語言模型對齊。

然后在端到端的有監(jiān)督微調(diào)(SFT)階段使用不同模態(tài)的指令數(shù)據(jù)集對模態(tài)適配器和大語言模型進行微調(diào)。在有監(jiān)督微調(diào)階段,同時使用跨模態(tài)(cross-modal)指令數(shù)據(jù)和僅文本(text-only)指令數(shù)據(jù)進行多任務(wù)訓練。LinkSoul.AI 團隊認為多任務(wù)訓練有助于避免模型產(chǎn)生模態(tài)依賴和偏見,并且可以自然地用一個模型實現(xiàn)多種模態(tài)。

LinkSoul.AI 團隊接下來的工作會把語音 - 視覺 - 文本進一步融合,讓大語言模型同時支持語音和視覺模態(tài)。

預(yù)訓練階段

預(yù)訓練階段將模態(tài)編碼器和大語言模型參數(shù)都凍結(jié),使用跨模態(tài)的語音 / 視覺 - 文本對進行 Adaptor 的訓練,優(yōu)化目標為對輸入的指令(instructions)生成相應(yīng)的回復(fù)(responses)。

具體來講,對于語音模態(tài),采用 Whisper 作為特征編碼器,凍結(jié) Whisper [5] 并提取音頻輸入的特征。使用公開的中英文自動語音識別(ASR)數(shù)據(jù)集 Aishell [1]、 LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

對每個數(shù)據(jù)樣本(audio、text_label)依據(jù)對應(yīng)語言隨機從預(yù)訓練語音指令表(見第三節(jié)數(shù)據(jù)部分)中選取一個指令,組成(audio,instruct,text_label)格式的數(shù)據(jù),并在訓練過程中預(yù)測 text_label。

對于視覺模態(tài),采用 CLIP [6] 作為圖片特征提取器,并使用 mBART [8] 對 LLaVA [7] 開源的視覺預(yù)訓練數(shù)據(jù)進行翻譯漢化,生成中文圖片文本對。在預(yù)訓練階段同時使用中英文數(shù)據(jù)進行訓練,從而讓模型更好的支持中文。

有監(jiān)督微調(diào)

預(yù)訓練階段將不同模態(tài)的特征和大語言模型對齊,有監(jiān)督微調(diào)階段則僅凍結(jié)模態(tài)編碼器權(quán)重,將模態(tài)適配器和大語言模型參數(shù)打開,使用跨模態(tài)指令數(shù)據(jù)進行微調(diào)。

針對目前幾乎沒有公開語音多模態(tài)指令數(shù)據(jù)這一問題,基于公開數(shù)據(jù)集 WizardLM [9]、ShareGPT [10]、GPT-4-LLM [11] 構(gòu)造語音 - 文本多模態(tài)指令數(shù)據(jù)集 LLaSM-Audio-Instructions。以語音輸入作為指令,并預(yù)測對應(yīng)的文本輸出。

對于視覺模態(tài),同樣先通過 mBART [8] 對 LLaVA [7] 開源的視覺指令數(shù)據(jù)集進行翻譯漢化,生成中文的視覺指令數(shù)據(jù)集,然后類似地進行訓練。

數(shù)據(jù)集

模態(tài)轉(zhuǎn)換預(yù)訓練數(shù)據(jù)集

先來看 Audio。語音多模態(tài)預(yù)訓練數(shù)據(jù)集采用公開中英文自動語音識別(ASR)數(shù)據(jù)集 Aishell [1]、LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

同時構(gòu)造如下指令集,對每個(audio、text_label)樣本依據(jù)對應(yīng)語言隨機選擇一條指令構(gòu)造數(shù)據(jù)樣本(instruction、audio、text_label)。

圖片

表 1:英文簡單指令集

圖片

表 2:中文簡單指令集

然后是 Vision。對于視覺模態(tài),采用 LLaVA [7] 開源的視覺預(yù)訓練數(shù)據(jù),通過 mBART [8] 翻譯進行漢化,生成中文圖片文本對,以提升模型的中文能力。

指令微調(diào)數(shù)據(jù)集

同樣先來看 Audio。在構(gòu)建音頻數(shù)據(jù)集的過程中,首先仔細過濾所有對話數(shù)據(jù),通過刪除那些不適合發(fā)聲的對話,包括代碼、符號、URL 和其他不可讀的文本。然后,為確保數(shù)據(jù)質(zhì)量,每輪對話中聊天機器人的答案再次被過濾,那些不包含有價值信息的內(nèi)容將被丟棄。最后,使用 Microsoft Azure [12] 語音合成 API 來生成語音數(shù)據(jù)。

然后是 Vision。對于視覺模態(tài),采用 LLaVA [7] 開源的視覺指令數(shù)據(jù)集,通過 mBART [8] 進行漢化,生成中文多模態(tài)指令數(shù)據(jù),使得模型能夠具有中文視覺指令執(zhí)行能力。

為了便于開源社區(qū)快速感受多模態(tài)大模型的能力,以及共同推進多模態(tài)大模型的研究進展,訓練用到的數(shù)據(jù)在項目中開源,并提供 Hugging Face 倉庫下載。

對于 LinkSoul.AI 團隊而言,這兩個開源可商用的多模態(tài)大模型不僅為大模型生態(tài)帶來了語音和視覺多模態(tài)能力,也在大模型多語言方面做出了貢獻。

此外在商用場景上,該團隊推出的模型都允許完全免費商用,這對于國內(nèi)個人開發(fā)者和初創(chuàng)公司也具有非凡的價值。

參考文獻:

[1] Aishell: https://www.openslr.org/33/

[2] LibriSpeech: https://huggingface.co/datasets/librispeech_asr

[3] Magicdata: https://openslr.org/68/

[4] Primewords: https://openslr.org/47/

[5] Whisper: https://huggingface.co/openai/whisper-large-v2

[6] CLIP: https://huggingface.co/openai/clip-vit-large-patch14

[7] LLaVA: https://llava-vl.github.io/

[8] mBART: https://arxiv.org/pdf/2001.08210.pdf, https://huggingface.co/facebook/mbart-large-50-one-to-many-mmt

[9] WizardLM: https://github.com/nlpxucan/WizardLM?

[10] ShareGPT: https://sharegpt.com/

[11] GPT-4-LLM: https://arxiv.org/abs/2304.03277

[12] Microsoft Azure 語音合成 API:https://azure.microsoft.com/en-us/products/ai-services/ai-speech

http://aloenet.com.cn/news/42186.html

相關(guān)文章:

  • 網(wǎng)站圖片分辨率福州百度分公司
  • 佛山新網(wǎng)站制作特色網(wǎng)站推廣排名
  • 沒有網(wǎng)站怎么做淘客視頻號怎么推廣流量
  • 臨沂做網(wǎng)站電話信息發(fā)布平臺推廣有哪些
  • 編程課有必要學嗎丈哥seo博客工具
  • 武漢網(wǎng)站設(shè)計站建設(shè)seo課程
  • 政務(wù)網(wǎng)站的建設(shè)時期的概述品牌策劃公司哪家好
  • 多語言網(wǎng)站實現(xiàn)微信引流推廣怎么做
  • 張家港網(wǎng)站建設(shè)做網(wǎng)站免費的網(wǎng)絡(luò)營銷方式
  • 網(wǎng)站怎么做別名專門搜索知乎內(nèi)容的搜索引擎
  • 網(wǎng)站圖片怎么做超鏈接百家號關(guān)鍵詞排名
  • 萬能造假截圖生成器上海外貿(mào)seo
  • 做的好的購物網(wǎng)站佛山網(wǎng)站設(shè)計實力樂云seo
  • 學校網(wǎng)站制作方案我對網(wǎng)絡(luò)營銷的理解
  • 購物網(wǎng)站的基本功能營銷網(wǎng)絡(luò)是什么
  • 網(wǎng)站開發(fā)外包報價建設(shè)網(wǎng)站
  • 推薦常州網(wǎng)站建設(shè)seo技術(shù)員
  • 可以做宣傳海報的網(wǎng)站信息流優(yōu)化師簡歷怎么寫
  • 網(wǎng)站目錄怎么做推廣專員是做什么的
  • 最新國際新聞頭條今日國際大事件seo計費系統(tǒng)登錄
  • 做網(wǎng)站濱州市最近的時事新聞
  • 杭州手機申請網(wǎng)站登錄谷歌chrome
  • 哪個網(wǎng)站的圖片可以做素材永久觀看不收費的直播
  • 魏縣做網(wǎng)站網(wǎng)站排名推廣工具
  • 普象工業(yè)設(shè)計網(wǎng)站上海最新事件
  • 上海制作網(wǎng)頁宣傳seo發(fā)展前景怎么樣啊
  • 如何知道網(wǎng)站開發(fā)語言軟文營銷的成功案例
  • wordpress計算器主題優(yōu)化站點
  • 怎么做淘寶客的跳轉(zhuǎn)網(wǎng)站免費的網(wǎng)頁入口
  • 上海企業(yè)網(wǎng)站建設(shè)谷歌關(guān)鍵詞挖掘工具