漯河百度做網(wǎng)站電話(huà)360推廣登錄入口
語(yǔ)音識(shí)別概述
一.什么是語(yǔ)音?
語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn)形式,是人類(lèi)自然的交流工具。
圖片來(lái)源:https://www.shenlanxueyuan.com/course/381
二.語(yǔ)音識(shí)別的定義
語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是將語(yǔ)音轉(zhuǎn)換為文本的任務(wù)。其主要目標(biāo)是解決機(jī)器“聽(tīng)清”問(wèn)題,處理聲學(xué)和(部分)語(yǔ)言上的混淆,確保每個(gè)人的語(yǔ)音都能被正確識(shí)別為文本。
1.主要解決的問(wèn)題:
- 將語(yǔ)音轉(zhuǎn)換成文本。
- 解決機(jī)器“聽(tīng)清”問(wèn)題。
- 處理聲學(xué)和部分語(yǔ)言上的混淆。
- 確保不同人的語(yǔ)音都能被正確識(shí)別。
2.不解決的問(wèn)題:
- 說(shuō)話(huà)人識(shí)別。
- 副語(yǔ)言信息的分析與識(shí)別(如發(fā)音、質(zhì)量、韻律、情感)。
- 語(yǔ)言理解。
3.評(píng)估標(biāo)準(zhǔn):
-
Accuracy(準(zhǔn)確率):
- 音素錯(cuò)誤率(Phone Error Rate, PER)
- 詞錯(cuò)誤率(Word Error Rate, WER)
- 字錯(cuò)誤率(Character Error Rate, CER)
- 句錯(cuò)誤率(Sentence Error Rate, SER)
-
Efficiency(效率):
- 實(shí)時(shí)率(Real-time Factor, RTF)
4.錯(cuò)誤率計(jì)算實(shí)例:
Ref: THE CAT IN THE HAT
Hyp: CAT IS ON THE GREEN HATDEL SUB INS INS
在這個(gè)例子中:
- 第一行為正確的抄本(Ref)。
- 第二行為識(shí)別結(jié)果(Hyp)。
- 錯(cuò)誤類(lèi)型:第一列為刪除錯(cuò)誤(DEL),第三列為替換錯(cuò)誤(SUB),第四列和第六列為插入錯(cuò)誤(INS)。
錯(cuò)誤率計(jì)算公式:Error rate=100×(1S+1D+2I)/5=80
計(jì)算過(guò)程中關(guān)注三種錯(cuò)誤:插入錯(cuò)誤、替換錯(cuò)誤和刪除錯(cuò)誤。實(shí)際計(jì)算時(shí),錯(cuò)誤率有可能超過(guò)100%。
5.語(yǔ)音識(shí)別系統(tǒng)分類(lèi):
- 說(shuō)話(huà)人:特定人、非特定人
- 語(yǔ)種:單一語(yǔ)種、多語(yǔ)種
- 詞匯量:大詞匯量、中詞匯量、小詞匯量
- 設(shè)備:云端、端側(cè)
- 距離:近距離、遠(yuǎn)距離
三.語(yǔ)音識(shí)別的重要性
語(yǔ)音識(shí)別(ASR,Automatic Speech Recognition)是一項(xiàng)極具挑戰(zhàn)性的技術(shù),被譽(yù)為“鑲嵌在人工智能皇冠上的明珠”。它在現(xiàn)代技術(shù)和應(yīng)用中占有重要地位,主要體現(xiàn)在以下幾個(gè)方面:
1. 快速、便捷、無(wú)接觸的優(yōu)點(diǎn)
- 快速:語(yǔ)音輸入的速度通常比鍵盤(pán)輸入更快,使信息傳遞更加高效。
- 便捷:用戶(hù)只需說(shuō)話(huà),無(wú)需學(xué)習(xí)復(fù)雜的輸入方法,使用門(mén)檻低。
- 無(wú)接觸(Hands-Free):特別適用于開(kāi)車(chē)、做家務(wù)等需要雙手操作的場(chǎng)景,提升了用戶(hù)的便利性和安全性。
2. 音頻內(nèi)容分析與理解的基礎(chǔ)
- 文字轉(zhuǎn)寫(xiě):語(yǔ)音識(shí)別是將音頻內(nèi)容轉(zhuǎn)化為文本的第一步,這一過(guò)程是進(jìn)一步分析與理解音頻內(nèi)容的基礎(chǔ)。
- 文本分析:轉(zhuǎn)寫(xiě)后的文本可以進(jìn)行情感分析、主題識(shí)別等處理。
- 數(shù)據(jù)存檔:轉(zhuǎn)寫(xiě)文本便于存儲(chǔ)和檢索,提升了數(shù)據(jù)的可用性。
3. AIoT和智能服務(wù)的入口
-
AIoT(人工智能物聯(lián)網(wǎng)):語(yǔ)音識(shí)別是AIoT設(shè)備的主要交互方式,用戶(hù)可以通過(guò)語(yǔ)音控制智能家居、可穿戴設(shè)備等。
- 智能家居:語(yǔ)音助手控制燈光、溫度、家電等。
- 可穿戴設(shè)備:語(yǔ)音識(shí)別用于健康監(jiān)測(cè)、運(yùn)動(dòng)記錄等。
-
智能服務(wù):語(yǔ)音識(shí)別在智能客服、自動(dòng)翻譯等領(lǐng)域有廣泛應(yīng)用。
- 智能客服:自動(dòng)應(yīng)答用戶(hù)問(wèn)題,提高客服效率。
- 自動(dòng)翻譯:實(shí)時(shí)翻譯語(yǔ)音內(nèi)容,打破語(yǔ)言障礙。
4. 滿(mǎn)足自然人機(jī)交互和內(nèi)容理解與生成的需求
-
自然人機(jī)交互:語(yǔ)音識(shí)別使人機(jī)交互更加自然,用戶(hù)可以通過(guò)語(yǔ)音指令與設(shè)備進(jìn)行交流,提升用戶(hù)體驗(yàn)。
- 虛擬助手:如Siri、Alexa、Google Assistant等通過(guò)語(yǔ)音識(shí)別實(shí)現(xiàn)自然對(duì)話(huà)。
- 導(dǎo)航系統(tǒng):通過(guò)語(yǔ)音輸入目的地,提高駕駛安全性。
-
內(nèi)容理解與生成:語(yǔ)音識(shí)別技術(shù)與自然語(yǔ)言處理(NLP)結(jié)合,實(shí)現(xiàn)內(nèi)容的理解與生成。
- 語(yǔ)音搜索:用戶(hù)通過(guò)語(yǔ)音進(jìn)行信息搜索,快速獲取答案。
- 語(yǔ)音生成:將文本轉(zhuǎn)化為自然語(yǔ)音,實(shí)現(xiàn)雙向交流。
5. 技術(shù)與應(yīng)用的廣泛性
- 醫(yī)療領(lǐng)域:醫(yī)生通過(guò)語(yǔ)音輸入病歷,提高工作效率,減少誤診。
- 教育領(lǐng)域:語(yǔ)音識(shí)別用于語(yǔ)言學(xué)習(xí)、課堂記錄等,提高學(xué)習(xí)效果。
- 安防領(lǐng)域:通過(guò)語(yǔ)音識(shí)別進(jìn)行身份驗(yàn)證和監(jiān)控,提高安全性。
四.語(yǔ)音交互
圖片來(lái)源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain
五.語(yǔ)音生成
語(yǔ)音生成(Speech Production)是指通過(guò)大腦指揮神經(jīng)系統(tǒng)發(fā)出肌肉命令,進(jìn)而控制發(fā)音器官運(yùn)動(dòng),最終產(chǎn)生聲音的過(guò)程。
1.語(yǔ)音生成過(guò)程
-
大腦指揮:大腦發(fā)出神經(jīng)信號(hào),控制肌肉運(yùn)動(dòng)。
-
神經(jīng)肌肉命令:神經(jīng)系統(tǒng)將命令傳遞到發(fā)音器官。
-
發(fā)音器官運(yùn)動(dòng):發(fā)音器官(如聲帶、口腔、鼻腔等)根據(jù)神經(jīng)信號(hào)進(jìn)行運(yùn)動(dòng),產(chǎn)生聲音。
2.發(fā)音的基本原理
- 聲門(mén)運(yùn)動(dòng):聲門(mén)的快速打開(kāi)與關(guān)閉產(chǎn)生不同的聲音。
- 基本頻率:聲門(mén)震動(dòng)的快慢決定聲音的基本頻率。
- 口腔、鼻腔、舌頭的位置及嘴型:這些因素共同決定聲音的內(nèi)容。
- 肺部空氣壓力:肺部壓縮空氣的力量決定音量。
2.聲音類(lèi)型
-
濁音(Voiced Sounds):由聲帶震動(dòng)引起,波形具有明顯的周期性,人們可以感受到穩(wěn)定的高音。
-
清音(Unvoiced Sounds):聲帶不震動(dòng),波形類(lèi)似白噪聲,人們無(wú)法感受到穩(wěn)定的高音。
3.語(yǔ)音單元
-
音素(Phonemes):
- 音素是語(yǔ)言中語(yǔ)音的最小單元,分為輔音(consonants)和元音(vowels)。
- 音素的數(shù)量因語(yǔ)言而異。
- 同位異音(Allophone):音素的聲學(xué)實(shí)現(xiàn)受到上下文影響,一個(gè)音素可能有不同的實(shí)現(xiàn)。
-
詞素(Morpheme):語(yǔ)言中最小的具有語(yǔ)義的結(jié)構(gòu)單元。
-
音節(jié)(Syllable):
- 由元音和輔音結(jié)合構(gòu)成。
- 音節(jié)頭(聲母):元音之前的輔音。
- 韻母:音節(jié)頭后的元音及隨后的輔音。
- 音節(jié)核:韻母中的元音。
- 音節(jié)尾:隨后的輔音。
- 在中文中,一個(gè)漢字的讀音為一個(gè)帶調(diào)音節(jié)(如普通話(huà)約1300多個(gè)帶調(diào)音節(jié),去掉聲調(diào)后約400個(gè)基礎(chǔ)音節(jié))。
4.聲學(xué)特征
-
共振峰(Formants):
- 在聲音的頻譜中,能量相對(duì)集中的區(qū)域。
- 共振峰決定音質(zhì),反映聲道的物理特征,不同元音會(huì)產(chǎn)生不同種類(lèi)的共振。
-
協(xié)同發(fā)音(Coarticulation):
- 發(fā)音過(guò)程中,每個(gè)音素會(huì)受到前后音素的影響。
- 協(xié)同發(fā)音使得音素的聲學(xué)實(shí)現(xiàn)與上下文強(qiáng)相關(guān),因此語(yǔ)音識(shí)別中常建立上下文相關(guān)模型。
5.音素抄本
音素抄本(Phonetic Transcription)是一段語(yǔ)音對(duì)應(yīng)的音素列表,可以帶或不帶邊界。音素抄本提供時(shí)間信息,可以通過(guò)人工標(biāo)注或自動(dòng)對(duì)齊獲得。它在語(yǔ)音識(shí)別的聲學(xué)建模中非常重要。
六.語(yǔ)音感知
語(yǔ)音感知(Speech Perception)是指人耳將外界聲音信號(hào)傳遞到大腦,并由大腦進(jìn)行處理和理解的過(guò)程。該過(guò)程包括外耳、中耳和內(nèi)耳的協(xié)同工作,以及聲音的物理特性與人耳聽(tīng)覺(jué)特性之間的關(guān)系。
1.人耳結(jié)構(gòu)
-
外耳:
- 功能:聲源定位,對(duì)聲音進(jìn)行放大。
- 組成:耳廓和外耳道。
-
中耳:
- 功能:進(jìn)行聲阻抗變換,放大聲壓,保護(hù)內(nèi)耳。
- 組成:鼓膜和聽(tīng)小骨(錘骨、砧骨、鐙骨)。
-
內(nèi)耳:
- 功能:將聲壓刺激轉(zhuǎn)化為神經(jīng)沖動(dòng),發(fā)送到大腦。
- 組成:耳蝸和聽(tīng)神經(jīng)。
2.物理特性與聽(tīng)覺(jué)特性
語(yǔ)音感知涉及聲音的物理量和感知量之間的關(guān)系。下表總結(jié)了這些關(guān)系:
物理量 (Physical Quantity) | 感知量 (Perceptual Quantity) |
---|---|
聲強(qiáng) (Intensity) | 響度 (Loudness) |
基頻 (Fundamental Frequency) | 音高或音調(diào) (Pitch) |
頻譜形狀 (Spectral Shape) | 音色或音品 (Timbre) |
起始/結(jié)束時(shí)間 (Onset/offset time) | 時(shí)間感知 (Timing) |
雙耳聽(tīng)覺(jué)的相位差 (Phase difference in binaural hearing) | 定位 (Location) |
3.聲音三要素
-
響度(Loudness):
- 響度是人主觀(guān)感受到的聲音強(qiáng)度,與聲音的頻率成分有關(guān)。
- 聞閾:人耳剛好能聽(tīng)見(jiàn)的最小響度。
- 痛閾:聲音使人耳感到疼痛時(shí)的響度。
圖片來(lái)源:https://www.shenlanxueyuan.com/course/381
-
音高或音調(diào)(Pitch):
-
音調(diào)是人耳對(duì)聲音頻率的感知,是非線(xiàn)性的,近似對(duì)數(shù)函數(shù)。
-
音調(diào)和頻率的近似關(guān)系:𝑇𝑚𝑒𝑙=2595log10?(1+𝑓7000)。
𝑓為物理頻率,𝑇𝑚𝑒𝑙為音調(diào),單位是美(Mel)
-
-
音色或音品(Timbre):
- 音色由聲音波形的諧波頻譜和包絡(luò)決定。
- 基音:聲音波形的基頻產(chǎn)生的最清楚的音。
- 泛音:各次諧波的微小震動(dòng)產(chǎn)生的音。
- 純音:單一頻率的音。
- 復(fù)音:具有諧波的音。
- 不同聲源的音色特征由聲音波形各次諧波的比例和隨時(shí)間的衰減大小決定。
4.掩蔽效應(yīng)
掩蔽效應(yīng)(Masking)是指一個(gè)較強(qiáng)聲音掩蔽附近較弱聲音,使其不易被察覺(jué)的現(xiàn)象。分為兩種情況:
-
同時(shí)掩蔽(Simultaneous Masking):一個(gè)強(qiáng)純音會(huì)掩蔽其附近頻率同時(shí)發(fā)生的弱純音。
-
異時(shí)掩蔽(Temporal Masking):在時(shí)間上相鄰的聲音之間的掩蔽現(xiàn)象。
掩蔽閾值是時(shí)間、頻率和聲壓級(jí)的函數(shù)。
七.語(yǔ)音識(shí)別的挑戰(zhàn)性
語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)是一個(gè)非常具有挑戰(zhàn)性的任務(wù),其在眾多方面表現(xiàn)出強(qiáng)大的可變性。以下是影響語(yǔ)音識(shí)別性能的主要因素及其可變性:
1.主要影響因素及其可變性
因素 | 可變性描述 |
---|---|
規(guī)模 | 詞表大小、復(fù)雜度/困惑度、書(shū)面化或口語(yǔ)化 |
說(shuō)話(huà)人 | 是否特定說(shuō)話(huà)人、適應(yīng)特定說(shuō)話(huà)人的特性 |
聲學(xué)環(huán)境 | 噪聲、干擾人聲、信道條件(麥克風(fēng)、傳輸空間、空間聲學(xué)) |
講話(huà)風(fēng)格 | 連續(xù)或孤立詞、有計(jì)劃或即興對(duì)話(huà)、大聲或輕聲細(xì)語(yǔ) |
口音/方言 | 是否能識(shí)別各種口音 |
語(yǔ)種 | 中文、英文、超過(guò)5000種語(yǔ)言、語(yǔ)言混雜 |
信道特性 | 不同麥克風(fēng)、不同采樣率、傳輸編碼等 |
環(huán)境影響 | 距離衰減、噪聲、混響、干擾人聲 |
2.語(yǔ)音識(shí)別中的變異性
-
說(shuō)話(huà)人之間的變異性:不同說(shuō)話(huà)人的口音、語(yǔ)速、發(fā)音方式、語(yǔ)調(diào)等各不相同。適應(yīng)多種說(shuō)話(huà)人的特性是語(yǔ)音識(shí)別的一個(gè)重要挑戰(zhàn)。
-
說(shuō)話(huà)人之內(nèi)的變異性:同一個(gè)人在不同時(shí)間、不同情緒狀態(tài)、不同健康狀態(tài)下,語(yǔ)音特性也會(huì)有所不同。不同講話(huà)方式(如大聲、輕聲、低語(yǔ))對(duì)語(yǔ)音識(shí)別系統(tǒng)的要求也各不相同。
-
信道變異性:不同麥克風(fēng)的性能、采樣率和傳輸編碼會(huì)影響語(yǔ)音信號(hào)的質(zhì)量。在不同傳輸條件下,信號(hào)可能會(huì)受到干擾或衰減。
-
環(huán)境變異性:環(huán)境噪聲、回聲、混響以及干擾人聲等都會(huì)影響語(yǔ)音信號(hào)的清晰度。距離衰減效應(yīng),尤其在遠(yuǎn)講場(chǎng)景下,語(yǔ)音信號(hào)會(huì)顯著衰減。
3.特殊場(chǎng)景挑戰(zhàn)
CHiME-5場(chǎng)景: 多說(shuō)話(huà)人完全自由對(duì)話(huà)。現(xiàn)實(shí)生活中的家居聲學(xué)場(chǎng)景。遠(yuǎn)講情況下的語(yǔ)音識(shí)別。說(shuō)話(huà)人移動(dòng)及語(yǔ)音交疊。
八.語(yǔ)音識(shí)別的發(fā)展歷史
1.早期階段(1950-1960年代)
在語(yǔ)音識(shí)別研究的初期,研究人員主要集中于提出一些基礎(chǔ)的方法和引入關(guān)鍵的思想與概念。由于受限于方法、計(jì)算能力和數(shù)據(jù)量,這一階段的研究主要針對(duì)小詞表的語(yǔ)音識(shí)別,且缺乏大規(guī)模測(cè)試。主要特點(diǎn)包括:
- 初步探索:提出個(gè)別方法和概念。
- 小詞表研究:主要集中在小范圍詞匯的語(yǔ)音識(shí)別。
- 技術(shù)限制:計(jì)算能力和數(shù)據(jù)量的限制使得研究進(jìn)展緩慢。
2.現(xiàn)代語(yǔ)音識(shí)別的誕生(1970-1980年代)
這個(gè)階段標(biāo)志著語(yǔ)音識(shí)別從基礎(chǔ)研究進(jìn)入了統(tǒng)計(jì)學(xué)習(xí)時(shí)代,幾乎忽略了語(yǔ)音學(xué)和語(yǔ)言學(xué)的專(zhuān)家知識(shí),轉(zhuǎn)而使用數(shù)據(jù)驅(qū)動(dòng)的方法。關(guān)鍵技術(shù)和方法在此期間得以發(fā)展,包括:
- 統(tǒng)計(jì)學(xué)習(xí)方法:將語(yǔ)音識(shí)別視為統(tǒng)計(jì)學(xué)習(xí)任務(wù)。
- 關(guān)鍵技術(shù):引入了EM算法、N-gram等。
- 中大詞表嘗試:開(kāi)始嘗試中大詞表的語(yǔ)音識(shí)別系統(tǒng)。
3.平穩(wěn)發(fā)展期(1990-2000年代)
在這一階段,GMM-HMM(高斯混合模型-隱馬爾科夫模型)框架成為主導(dǎo),語(yǔ)音識(shí)別系統(tǒng)得以進(jìn)一步發(fā)展。主要進(jìn)展包括:
- GMM-HMM框架:成為語(yǔ)音識(shí)別的主流框架。
- 上下文相關(guān)建模:聲學(xué)建模開(kāi)始考慮基于上下文相關(guān)的模型。
- n-gram語(yǔ)言模型:使用大量文本統(tǒng)計(jì)概率關(guān)系。
- 數(shù)據(jù)和任務(wù)復(fù)雜度增加:數(shù)據(jù)量和任務(wù)復(fù)雜度逐步增加。
- 判別式學(xué)習(xí):引入?yún)^(qū)分性訓(xùn)練技術(shù)推動(dòng)進(jìn)步。
盡管技術(shù)不斷進(jìn)步,但語(yǔ)音識(shí)別的準(zhǔn)確率在這一時(shí)期鮮有顯著提升。
3.深度學(xué)習(xí)時(shí)代(2006年至今)
2006年是語(yǔ)音識(shí)別歷史上的一個(gè)重要轉(zhuǎn)折點(diǎn),標(biāo)志著深度學(xué)習(xí)技術(shù)的引入和廣泛應(yīng)用。在此之后,語(yǔ)音識(shí)別的準(zhǔn)確率顯著提升,主要特點(diǎn)包括:
- 深度神經(jīng)網(wǎng)絡(luò)(DNNs):深度學(xué)習(xí)模型的應(yīng)用大幅提升了語(yǔ)音識(shí)別的性能。
- 大規(guī)模數(shù)據(jù)和計(jì)算能力:利用更大的數(shù)據(jù)集和更強(qiáng)的計(jì)算能力進(jìn)行訓(xùn)練。
- 持續(xù)改進(jìn):技術(shù)不斷進(jìn)步,推動(dòng)語(yǔ)音識(shí)別系統(tǒng)向更高的準(zhǔn)確率和更廣泛的應(yīng)用場(chǎng)景發(fā)展。
九.現(xiàn)代語(yǔ)音識(shí)別框架
現(xiàn)代語(yǔ)音識(shí)別框架主要分為兩類(lèi):統(tǒng)計(jì)模型和端到端系統(tǒng)。
1.統(tǒng)計(jì)模型
統(tǒng)計(jì)模型的核心思想是通過(guò)計(jì)算最有可能的單詞序列來(lái)進(jìn)行語(yǔ)音識(shí)別。假設(shè)有一個(gè)聲學(xué)特征向量(觀(guān)測(cè)向量)的序列 X,表示一個(gè)單詞序列 W,那么最有可能的單詞序列可以通過(guò)以下公式計(jì)算得出:
W ^ = arg ? max ? W P ( W ∣ X ) \hat{W} = \arg\max_W P(W|X) W^=argWmax?P(W∣X)
應(yīng)用貝葉斯定理,這一公式可以進(jìn)一步推導(dǎo)為:
P ( W ∣ X ) = p ( X ∣ W ) P ( W ) p ( X ) ∝ p ( X ∣ W ) P ( W ) P(W|X) = \frac{p(X|W)P(W)}{p(X)} \propto p(X|W)P(W) P(W∣X)=p(X)p(X∣W)P(W)?∝p(X∣W)P(W)
其中:
- p(X∣W) 是 聲學(xué)模型,用于計(jì)算給定單詞序列 W 下的聲學(xué)特征向量 X的概率。
- P(W) 是 語(yǔ)言模型,用于計(jì)算單詞序列 W的先驗(yàn)概率。
通過(guò)組合聲學(xué)模型和語(yǔ)言模型,統(tǒng)計(jì)模型可以通過(guò)給定的聲學(xué)特征向量 X獲取最有可能的詞序列。
現(xiàn)代的統(tǒng)計(jì)模型通常使用三大組件:
-
聲學(xué)模型:用于計(jì)算聲學(xué)特征向量的概率分布。
-
語(yǔ)言模型:用于計(jì)算單詞序列的先驗(yàn)概率。
-
發(fā)音詞典:提供單詞與其發(fā)音之間的映射。
圖片來(lái)源:https://www.shenlanxueyuan.com/course/381
2.端到端系統(tǒng)
端到端系統(tǒng)使用一個(gè)神經(jīng)網(wǎng)絡(luò)直接將輸入的聲學(xué)特征向量 X映射為詞序列。這種方法簡(jiǎn)化了傳統(tǒng)統(tǒng)計(jì)模型的復(fù)雜架構(gòu),避免了多個(gè)組件的獨(dú)立優(yōu)化和組合,具有以下特點(diǎn):
- 直接映射:通過(guò)神經(jīng)網(wǎng)絡(luò)直接將聲學(xué)特征向量轉(zhuǎn)換為單詞序列。
- 簡(jiǎn)化架構(gòu):省去聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典的獨(dú)立建模和組合。
- 統(tǒng)一訓(xùn)練:在一個(gè)訓(xùn)練過(guò)程中同時(shí)優(yōu)化聲學(xué)和語(yǔ)言模型的參數(shù)。
圖片來(lái)源:https://www.shenlanxueyuan.com/course/381
十.語(yǔ)料庫(kù)與工具包
1.英文數(shù)據(jù)
- TIMIT:用于音素識(shí)別,由 LDC 管理版權(quán)。
- WSJ:新聞播報(bào)語(yǔ)料庫(kù),由 LDC 管理版權(quán)。
- Switchboard:電話(huà)對(duì)話(huà)語(yǔ)料庫(kù),由 LDC 管理版權(quán)。
- Librispeech:有聲讀物語(yǔ)料庫(kù),包含 1000 小時(shí)的開(kāi)源數(shù)據(jù)。 Librispeech
- AMI:會(huì)議語(yǔ)料庫(kù),開(kāi)源數(shù)據(jù)。 AMI
- TED-LIUM:TED 演講語(yǔ)料庫(kù),開(kāi)源數(shù)據(jù)。 TED-LIUM
- CHiME-4:平板遠(yuǎn)講語(yǔ)料庫(kù),需要申請(qǐng)。
- CHiME-5/6:聚會(huì)聊天語(yǔ)料庫(kù),需要申請(qǐng)。
2.中文數(shù)據(jù)
- THCHS-30:30 小時(shí)的開(kāi)源語(yǔ)料庫(kù)。 THCHS-30
- HKUST:150 小時(shí)的電話(huà)對(duì)話(huà)語(yǔ)料庫(kù),由 LDC 管理版權(quán)。
- AIShell-1:178 小時(shí)的開(kāi)源語(yǔ)料庫(kù)。 AIShell-1
- AIShell-2:1000 小時(shí)的開(kāi)源語(yǔ)料庫(kù),需申請(qǐng)。 AIShell-2
- aidatatang_200zh:200 小時(shí)的開(kāi)源語(yǔ)料庫(kù)。 aidatatang_200zh
- MAGICDATA:755 小時(shí)的開(kāi)源語(yǔ)料庫(kù)。 MAGICDATA
3.工具包
- HTK:一款語(yǔ)音識(shí)別工具包。 HTK
- Kaldi:目前使用最廣泛的語(yǔ)音識(shí)別工具包,支持 C++ 和 Python。 Kaldi
- ESPNet:基于 Pytorch 的端到端語(yǔ)音識(shí)別工具包。 ESPNet
- Lingvo:基于 Tensorflow 的語(yǔ)音識(shí)別工具包。 Lingvo