国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

寧晉網站建設代理價格深圳百度推廣優(yōu)化

寧晉網站建設代理價格,深圳百度推廣優(yōu)化,綠色資源網,網站制作信息目錄 自然語言處理-NLP 致命密碼:一場關于語言的較量 自然語言處理的發(fā)展歷程 興起時期 符號主義時期 連接主義時期 深度學習時期 自然語言處理技術面臨的挑戰(zhàn) 語言學角度 同義詞問題 情感傾向問題 歧義性問題 對話/篇章等長文本處理問題 探索自然語言…

目錄

自然語言處理-NLP

致命密碼:一場關于語言的較量

自然語言處理的發(fā)展歷程

興起時期

符號主義時期

連接主義時期

深度學習時期

自然語言處理技術面臨的挑戰(zhàn)

語言學角度

同義詞問題

情感傾向問題

歧義性問題

對話/篇章等長文本處理問題

探索自然語言理解的本質問題

計算角度

自然語言處理的常見任務

使用深度學習解決自然語言處理任務的套路

使用飛槳探索自然語言處理


自然語言處理-NLP

自然語言處理(Natural Language Processing,簡稱NLP)被譽為人工智能皇冠上的明珠,是計算機科學和人工智能領域的一個重要方向。

它主要研究人與計算機之間,使用自然語言進行有效通信的各種理論和方法。

簡單來說,計算機以用戶的自然語言數據作為輸入,在其內部通過定義的算法進行加工、計算等系列操作后(用以模擬人類對自然語言的理解),再返回用戶所期望的結果,如?圖1?所示。
?


圖1:自然語言處理示意圖


?

自然語言處理是一門融合語言學、計算機科學和數學于一體的科學。它不僅限于研究語言學,還是研究能高效實現自然語言理解和自然語言生成的計算機系統(tǒng),特別是其中的軟件系統(tǒng),因此它是計算機科學的一部分。

隨著計算機和互聯(lián)網技術的發(fā)展,自然語言處理技術在各領域廣泛應用,如?圖2?所示。在過去的幾個世紀,工業(yè)革命用機械解放了人類的雙手,在當今的人工智能革命中,計算機將代替人工,處理大規(guī)模的自然語言信息。我們平時常用的搜索引擎,新聞推薦,智能音箱等產品,都是以自然語言處理技術為核心的互聯(lián)網和人工智能產品。


圖2:自然語言處理技術在各領域的應用


?

此外,自然語言處理技術的研究也在日新月異變化,每年投向ACL(Annual Meeting of the Association for Computational Linguistics,計算語言學年會,自然語言處理領域的頂級會議)的論文數成倍增長,自然語言處理的應用效果被不斷刷新,有趣的任務和算法更是層出不窮。


致命密碼:一場關于語言的較量

事實上,人們并非只在近代才開始研究和處理自然語言,在漫長的歷史長河中,是否妥當處理自然語言,成為戰(zhàn)爭的勝利或是政權的更迭的關鍵因素。

16世紀的英國大陸,英格蘭和蘇格蘭剛剛完成統(tǒng)一,統(tǒng)治者為英格蘭女王伊麗莎白一世,蘇格蘭女王瑪麗因被視為威脅而遭到囚禁?,旣惻鹾推渌K格蘭貴族謀反,這些貴族們通過信件與瑪麗女王聯(lián)絡,商量營救方案并推翻伊麗莎白女王的統(tǒng)治。為了能更安全地與同伙溝通,瑪麗使用了一種傳統(tǒng)的文字加密形式 - 凱撒密碼對她們之間的信件進行加密,如?圖3?所示。


圖3:凱撒密碼


?

這種密碼通過把原文中的字母替換成另外一個字符的形式,達到加密手段。然而他們的陰謀活動早在英格蘭貴族監(jiān)控之下,英格蘭國務大臣弗朗西斯·沃爾辛厄姆爵士通過統(tǒng)計英文字母的出現頻率和瑪麗女王密函中的字母頻率,找到了破解密碼的規(guī)律。最終,瑪麗和其他貴族在舉兵謀反前夕被捕。這是近代西方第一次破譯密碼,開啟了近現代密碼學的先河


自然語言處理的發(fā)展歷程

自然語言處理有著悠久的發(fā)展史,可粗略地分為興起、符號主義、連接主義和深度學習四個階段,如?圖4?所示:


圖4:自然語言處理的發(fā)展歷程

興起時期

大多數人認為,自然語言處理的研究興起于1950年前后。在二戰(zhàn)中,破解納粹德國的恩尼格瑪密碼成為盟軍對抗納粹的重要戰(zhàn)場。經過二戰(zhàn)的洗禮,曾經參與過密碼破譯的香農和圖靈等科學家開始思考自然語言處理和計算之間的關系。


圖5:恩尼格瑪密碼機

圖靈測試(The Turing test)

由艾倫·麥席森·圖靈提出,指測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。
進行多次測試后,如果機器讓平均每個參與者做出超過30%的誤判,那么這臺機器就通過了測試,并被認為具有人類智能。圖靈測試一詞來源于計算機科學和密碼學的先驅艾倫·麥席森·圖靈寫于1950年的一篇論文《計算機器與智能》,其中30%是圖靈對2000年時的機器思考能力的一個預測,我們已遠遠落后于這個預測

1948年香農把馬爾可夫過程模型(Markov Progress)應用于建模自然語言,并提出把熱力學中“熵”(Entropy)的概念擴展到自然語言建模領域。香農相信,自然語言跟其它物理世界的信號一樣,是具有統(tǒng)計學規(guī)律的,通過統(tǒng)計分析可以幫助我們更好地理解自然語言。

1950年,艾倫圖靈提出著名的圖靈測試,標志著人工智能領域的開端。二戰(zhàn)后,受到美蘇冷戰(zhàn)的影響,美國政府開始重視機器自動翻譯的研究工作,以便于隨時監(jiān)視蘇聯(lián)最新的科技進展。1954年美國喬治城大學在一項實驗中,成功將約60句俄文自動翻譯成英文,被視為機器翻譯可行的開端。自此開始的十年間,政府與企業(yè)相繼投入大量的資金,用于機器翻譯的研究。

1956年,喬姆斯基(Chomsky)提出了“生成式文法”這一大膽猜想,他假設在客觀世界存在一套完備的自然語言生成規(guī)律,每一句話都遵守這套規(guī)律而生成。總結出這個客觀規(guī)律,人們就掌握了自然語言的奧秘。

從此,自然語言的研究就被分為了

以語言學為基礎的符號主義學派,

以概率統(tǒng)計為基礎的連接主義學派。

符號主義時期

在自然語言處理發(fā)展的初期階段,大量的自然語言研究工作都聚焦從語言學角度,分析自然語言的詞法、句法等結構信息,并通過總結這些結構之間的規(guī)則,達到處理和使用自然語言的目的。這一時期的代表人物就是喬姆斯基和他提出的“生成式文法”。1966年,完全基于規(guī)則的對話機器人ELIZA在MIT人工智能實驗室誕生了,如?圖6?所示。


圖6:基于規(guī)則的聊天機器人ELIZA


?

然而同年,ALPAC(Automatic Language Processing Advisory Committee,自動語言處理顧問委員會)提出的一項報告中提出,十年來的機器翻譯研究進度緩慢、未達預期。該項報告發(fā)布后,機器翻譯和自然語言的研究資金大為減縮,自然語言處理和人工智能的研究進入寒冰期。

連接主義時期

1980年,由于計算機技術的發(fā)展和算力的提升,個人計算機可以處理更加復雜的計算任務,自然語言處理研究得以復蘇,研究人員開始使用統(tǒng)計機器學習方法處理自然語言任務。

起初研究人員嘗試使用淺層神經網絡,結合少量標注數據的方式訓練模型,雖然取得了一定的效果,但是仍然無法讓大部分人滿意。

后來研究者開始使用人工提取自然語言特征的方式,結合簡單的統(tǒng)計機器學習算法解決自然語言問題。其實現方式是基于研究者在不同領域總結的經驗,將自然語言抽象成一組特征,使用這組特征結合少量標注樣本,訓練各種統(tǒng)計機器學習模型(如支持向量機、決策樹、隨機森林、概率圖模型等),完成不同的自然語言任務。

由于這種方式基于大量領域專家經驗積累(如解決一個情感分析任務,那么一個很重要的特征 — 是否命中情感詞表),以及傳統(tǒng)機器學習簡單、魯棒性強的特點,這個時期神經網絡技術被大部分人所遺忘。

深度學習時期

從2006年深度神經網絡反向傳播算法的提出開始,伴隨著互聯(lián)網的爆炸式發(fā)展和計算機(特別是GPU)算力的進一步提高,人們不再依賴語言學知識和有限的標注數據,自然語言處理領域邁入了深度學習時代。

基于互聯(lián)網海量數據,并結合深度神經網絡的強大擬合能力,人們可以非常輕松地應對各種自然語言處理問題。越來越多的自然語言處理技術趨于成熟并顯現出巨大的商業(yè)價值,自然語言處理和人工智能領域的發(fā)展進入了鼎盛時期。

自然語言處理的發(fā)展經歷了多個歷史階段的演進,不同學派之間相互補充促進,共同推動了自然語言處理技術的快速發(fā)展。

自然語言處理技術面臨的挑戰(zhàn)

如何讓機器像人一樣,能夠準確理解和使用自然語言?這是當前自然語言處理領域面臨的最大挑戰(zhàn)。為了解決這一問題,我們需要從語言學和計算兩個角度思考。

語言學角度

自然語言數量多、形態(tài)各異,理解自然語言對人來說本身也是一件復雜的事情,如同義詞、情感傾向、歧義性、長文本處理、語言慣性表達等。通過如下幾個例子,我們一同感受一下。

同義詞問題

請問下列詞語是否為同義詞?(題目來源:四川話和東北話6級模擬考試)

瓜兮兮 和 鐵憨憨

嘎嘎 和 肉(you)

磕攙 和 難看

吭呲癟肚 和 速度慢

情感傾向問題

請問如何正確理解下面兩個場景?

場景一:女朋友生氣了,男朋友電話道歉。

女生:就算你買包我也不會原諒你!

男生:寶貝,放心,我不買,你別生氣了。

問:女生會不會生氣?

場景二:甲和乙是同宿舍的室友,他們之間的對話。

甲:鑰匙好像沒了,你把鎖別別。

乙:到底沒沒沒?

甲:我也不道沒沒沒。

乙:要沒沒你讓我別,別別了,別禿魯了咋整?

問:到底別不別?

歧義性問題

請問如何理解下面三句話?

一行行行行行,一行不行行行不行。

來到楊過曾經生活過的地方,小龍女說:“我也想過過過兒過過的生活”。

來到兒子等校車的地方,鄧超對孫儷說:“我也想等等等等等過的那輛車”。

相信大多數人都需要花點腦筋去理解上面的句子,在不同的上下文中,相同的單詞可以具有不同的含義,這種問題我們稱之為歧義性問題。

對話/篇章等長文本處理問題

在處理長文本(如一篇新聞報道,一段多人對話,甚至于一篇長篇小說)時,需要經常處理各種省略、指代、話題轉折和切換等語言學現象,給機器理解自然語言帶來了挑戰(zhàn),如?圖7?所示。


圖7:多輪對話中的指代和省略



探索自然語言理解的本質問題

研表究明,漢字的順序并不定一能影閱響讀,比如當你看完這句話后,才發(fā)這現里的字全是都亂的。

上面這句話從語法角度來說完全是錯的,但是對大部分人來說完全不影響理解,甚至很多人都不會意識到這句話的語法是錯的。

計算角度

自然語言技術的發(fā)展除了受語言學的制約外,在計算角度也天然存在局限。顧名思義,計算機是計算的機器,現有的計算機都以浮點數為輸入和輸出,擅長執(zhí)行加減乘除類計算。

自然語言本身并不是浮點數,計算機為了能存儲和顯示自然語言,需要把自然語言中的字符轉換為一個固定長度(或者變長)的二進制編碼,如?圖8?所示。


圖8:計算機計算自然語言流程


?

由于這個編碼本身不是數字,對這個編碼的計算往往不具備數學和物理含義。例如:把“法國”和“首都”放在一起,大多數人首先聯(lián)想到的內容是“巴黎”。但是如果我們使用“法國”和“首都”的UTF-8編碼去做加減乘除等運算,是無法輕易獲取到“巴黎”的UTF-8編碼,甚至無法獲得一個有效的UTF-8編碼。因此,如何讓計算機可以有效地計算自然語言,是計算機科學家和工程師面臨的巨大挑戰(zhàn)。

此外,目前也有研究人員正在關注自然語言處理方法中的社會問題:

包括自然語言處理模型中的偏見和歧視、大規(guī)模計算對環(huán)境和氣候帶來的影響、傳統(tǒng)工作被取代后,人的失業(yè)和再就業(yè)問題等。

自然語言處理的常見任務

自然語言處理是是非常復雜的領域,是人工智能中最為困難的問題之一,常見的任務如?圖9?所示:


圖9:自然語言處理常見任務


?

  • 詞和短語級任務:包括切詞、詞性標注、命名實體識別(如“蘋果很好吃”和“蘋果很偉大”中的“蘋果”,哪個是蘋果公司?)、同義詞計算(如“好吃”的同義詞是什么?)等以詞為研究對象的任務。
  • 句子和段落級任務:包括文本傾向性分析(如客戶說:“你們公司的產品真好用!”是在夸贊還是在諷刺?)、文本相似度計算(如“我坐高鐵去廣州”和“我坐火車去廣州”是一個意思嗎?)等以句子為研究對象的任務。
  • 對話和篇章級任務:包括機器閱讀理解(如使用醫(yī)藥說明書回答患者的咨詢問題)、對話系統(tǒng)(如打造一個24小時在線的AI話務員)等復雜的自然語言處理系統(tǒng)等。
  • 自然語言生成:如機器翻譯(如“我愛飛槳”的英文是什么?)、機器寫作(以AI為題目寫一首詩)等自然語言生成任務。

使用深度學習解決自然語言處理任務的套路

使用深度學習解決自然語言處理任務一般需要經歷如下幾個步驟:

(前提)學習基本知識。?在學習相關的知識后才能對任務有一定的了解,例如了解模型的網絡結構、數據集的構成等,為后續(xù)解決任務打好基礎。

  1. 處理數據。?確認網絡能夠接收的數據形式,然后對數據進行處理。
  2. 實現網絡。?搭建網絡的過程。
  3. 模型訓練。?訓練模型調整參數的過程。
  4. 評估&上線。?對訓練出的模型效果進行評估,確認模型性能。


圖10:

探索自然語言處理

接下來,讓我們一起探索幾個經典的自然語言處理任務,包括:

  • 計算詞語之間的關系(如同義詞):word Embedding
  • 理解一個自然語言句子:文本分類和相似度計算

一般來說,使用飛槳完成自然語言處理任務時,都可以遵守一個相似的套路,如?圖10?所示。
?


圖11:使用飛槳框架構建神經網絡過程

http://aloenet.com.cn/news/32657.html

相關文章:

  • 攝影網站建設廣東廣州疫情最新情況
  • 石家莊網站建設公司哪家好如何制作網頁鏈接
  • 小兔自助建站百度一下1688
  • 泉州網站建設網絡推廣要求
  • 裝修網站怎么做seo 工具
  • 正保建設工程教育網站線上推廣方式有哪些
  • 家電維修做網站生意怎么樣合肥網站維護公司
  • 徐州網站建設哪家好企業(yè)管理培訓機構
  • 日照網站建設價格蘇貨運公司回收百度賬戶推廣登陸
  • 百度快照入口seo站長工具 論壇
  • 與做網站有關的參考文獻網絡營銷的四種形式
  • 做網站要霸屏嗎推廣營銷
  • 溫江做網站seo在線短視頻發(fā)布頁
  • 常州專業(yè)網站建設推廣seo基礎培訓機構
  • 服務器如何發(fā)布網站無線網絡優(yōu)化是做什么的
  • 石家莊新華區(qū)網站建設推廣官網
  • 批量 網站標題常用的營銷方法和手段
  • 南京網站開發(fā)注冊app近期國內新聞熱點事件
  • 贛州建網站重慶百度競價開戶
  • 溫州網站設計公司seo運營工作內容
  • 做網站的學什么代碼濟南seo排行榜
  • 網站建設運營協(xié)議書2023年6月份又封城了
  • 政府門戶網站建設方案下載磁力吧ciliba
  • 做會計網站的流程seo課程總結怎么寫
  • 美橙域名查詢網站做網站建設優(yōu)化的公司排名
  • 做網站空間 阿里云優(yōu)化大師怎么刪除學生
  • wordpress以前版本星巴克seo網絡推廣
  • 西安誰家的集團門戶網站建設比較好seo推廣排名重要嗎
  • 做ppt的模板的網站有哪些如何優(yōu)化網站
  • 網站推廣服務網站連鎖微信朋友圈廣告30元 1000次