58這種網(wǎng)站怎么做nba實(shí)力榜最新排名
人工智能-NLP簡(jiǎn)單知識(shí)匯總01
1.1自然語(yǔ)言處理的基本概念
自然語(yǔ)言處理難點(diǎn):
- 語(yǔ)音歧義
- 句子切分歧義
- 詞義歧義
- 結(jié)構(gòu)歧義
- 代指歧義
- 省略歧義
- 語(yǔ)用歧義
總而言之:!!語(yǔ)言無(wú)處不歧義
1.2自然語(yǔ)言處理的基本范式
1.2.1基于規(guī)則的方法
通過(guò)詞匯、形式文法等制定的規(guī)則引入語(yǔ)言學(xué)知識(shí),從而完成相應(yīng)的自然語(yǔ)言處理任務(wù)
對(duì)于機(jī)器翻譯任務(wù)可以構(gòu)造如下規(guī)則庫(kù):
if 漢語(yǔ)主語(yǔ)=我 then 英語(yǔ)主語(yǔ) = I
if 英語(yǔ)主語(yǔ)=I then 英語(yǔ) be動(dòng)詞 = am/was
if 漢語(yǔ) = 蘋果 and 沒(méi)有修飾量詞 then 英語(yǔ) = apples
就是基于固定規(guī)則,優(yōu)缺點(diǎn)顯而易見(jiàn)
1.2.2基于機(jī)器學(xué)習(xí)的方法
將自然語(yǔ)言處理任務(wù)轉(zhuǎn)化為某種分類任務(wù)
-
數(shù)據(jù)構(gòu)建既是構(gòu)建語(yǔ)料庫(kù)(Corpus)
-
數(shù)據(jù)預(yù)處理既是簡(jiǎn)單的數(shù)據(jù)處理劃分。
-
特征構(gòu)建階段是提取對(duì)于機(jī)器學(xué)習(xí)模型有用的特征。
-
模型學(xué)習(xí)階段既是選擇合適的機(jī)器學(xué)習(xí)模型,確定學(xué)習(xí)準(zhǔn)則,訓(xùn)練模型參數(shù)。
需要人工處理的特別多
1.2.3基于深度學(xué)習(xí)的方法
將特征學(xué)習(xí)和預(yù)測(cè)模型融合,通過(guò)優(yōu)化算法使得模型自動(dòng)地學(xué)習(xí)出好的特征表示,并基于此進(jìn)行結(jié)果預(yù)測(cè)
- 數(shù)據(jù)預(yù)處理簡(jiǎn)單
- 通過(guò)多層特征轉(zhuǎn)換,將原始數(shù)據(jù)轉(zhuǎn)換為更加抽象的表示??梢栽谝欢ǔ潭壬贤耆嫒斯ぴO(shè)計(jì)的特征。也稱為:表示學(xué)習(xí)。
- 利用自監(jiān)督任務(wù)進(jìn)行預(yù)處理,通過(guò)海量的數(shù)據(jù)得到更加通用語(yǔ)言表示,根據(jù)下游任務(wù)進(jìn)行網(wǎng)絡(luò)調(diào)整。
1.2.4基于大模型的方法
將大量各類型自然語(yǔ)言處理任務(wù),統(tǒng)一為生成式自然語(yǔ)言理解框架
- 在大規(guī)模語(yǔ)言模型構(gòu)建階段,通過(guò)大量的文本內(nèi)容,訓(xùn)練模型長(zhǎng)文本的建模能力,使得模型具有語(yǔ)言生成能力,并使得模型獲得隱式的世界知識(shí)。
- 在通用能力注入階段,利用包括閱讀理解、情感分析、信息抽取等現(xiàn)有任務(wù)的標(biāo)注數(shù)據(jù),結(jié)合人工設(shè)計(jì)的指令詞對(duì)模型進(jìn)行多任務(wù)訓(xùn)練,從而使得模型具有很好的任務(wù)泛化能力。
- 特定任務(wù)使用階段則變得非常簡(jiǎn)單,由于模型具備了通用任務(wù)能力,只需要根據(jù)任務(wù)需求設(shè)計(jì)任務(wù)指令,將任務(wù)中所需處理的文本內(nèi)容與指令結(jié)合,然后就可以利用大模型得到所需結(jié)果。