當(dāng)前位置：首頁(yè) > news >正文

漯河百度做網(wǎng)站電話(huà)360推廣登錄入口

news 2025/7/1 23:10:07

漯河百度做網(wǎng)站電話(huà),360推廣登錄入口,濟(jì)南網(wǎng)站建設(shè)和維護(hù),做網(wǎng)站用什么開(kāi)發(fā)工具好語(yǔ)音識(shí)別概述一.什么是語(yǔ)音？ 語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn)形式，是人類(lèi)自然的交流工具。圖片來(lái)源：https://www.shenlanxueyuan.com/course/381 二.語(yǔ)音識(shí)別的定義語(yǔ)音識(shí)別（Automatic Speech Recognition, ASR 或 Speech to Text, ST…

語(yǔ)音識(shí)別概述

一.什么是語(yǔ)音？

語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn)形式，是人類(lèi)自然的交流工具。

在這里插入圖片描述
圖片來(lái)源：https://www.shenlanxueyuan.com/course/381

二.語(yǔ)音識(shí)別的定義

語(yǔ)音識(shí)別（Automatic Speech Recognition, ASR 或 Speech to Text, STT）是將語(yǔ)音轉(zhuǎn)換為文本的任務(wù)。其主要目標(biāo)是解決機(jī)器“聽(tīng)清”問(wèn)題，處理聲學(xué)和（部分）語(yǔ)言上的混淆，確保每個(gè)人的語(yǔ)音都能被正確識(shí)別為文本。

1.主要解決的問(wèn)題：

將語(yǔ)音轉(zhuǎn)換成文本。
解決機(jī)器“聽(tīng)清”問(wèn)題。
處理聲學(xué)和部分語(yǔ)言上的混淆。
確保不同人的語(yǔ)音都能被正確識(shí)別。

2.不解決的問(wèn)題：

說(shuō)話(huà)人識(shí)別。
副語(yǔ)言信息的分析與識(shí)別（如發(fā)音、質(zhì)量、韻律、情感）。
語(yǔ)言理解。

3.評(píng)估標(biāo)準(zhǔn)：

Accuracy（準(zhǔn)確率）:
- 音素錯(cuò)誤率（Phone Error Rate, PER）
- 詞錯(cuò)誤率（Word Error Rate, WER）
- 字錯(cuò)誤率（Character Error Rate, CER）
- 句錯(cuò)誤率（Sentence Error Rate, SER）
Efficiency（效率）:
- 實(shí)時(shí)率（Real-time Factor, RTF）

4.錯(cuò)誤率計(jì)算實(shí)例：

Ref：  THE CAT IN       THE        HAT
Hyp：      CAT IS   ON  THE  GREEN HATDEL     SUB  INS       INS

在這個(gè)例子中：

第一行為正確的抄本（Ref）。
第二行為識(shí)別結(jié)果（Hyp）。
錯(cuò)誤類(lèi)型：第一列為刪除錯(cuò)誤（DEL），第三列為替換錯(cuò)誤（SUB），第四列和第六列為插入錯(cuò)誤（INS）。

錯(cuò)誤率計(jì)算公式：Error rate=100×(1S+1D+2I)/5=80

計(jì)算過(guò)程中關(guān)注三種錯(cuò)誤：插入錯(cuò)誤、替換錯(cuò)誤和刪除錯(cuò)誤。實(shí)際計(jì)算時(shí)，錯(cuò)誤率有可能超過(guò)100%。

5.語(yǔ)音識(shí)別系統(tǒng)分類(lèi)：

說(shuō)話(huà)人:特定人、非特定人
語(yǔ)種:單一語(yǔ)種、多語(yǔ)種
詞匯量:大詞匯量、中詞匯量、小詞匯量
設(shè)備:云端、端側(cè)
距離:近距離、遠(yuǎn)距離

三.語(yǔ)音識(shí)別的重要性

語(yǔ)音識(shí)別（ASR，Automatic Speech Recognition）是一項(xiàng)極具挑戰(zhàn)性的技術(shù)，被譽(yù)為“鑲嵌在人工智能皇冠上的明珠”。它在現(xiàn)代技術(shù)和應(yīng)用中占有重要地位，主要體現(xiàn)在以下幾個(gè)方面：

1. 快速、便捷、無(wú)接觸的優(yōu)點(diǎn)

快速：語(yǔ)音輸入的速度通常比鍵盤(pán)輸入更快，使信息傳遞更加高效。
便捷：用戶(hù)只需說(shuō)話(huà)，無(wú)需學(xué)習(xí)復(fù)雜的輸入方法，使用門(mén)檻低。
無(wú)接觸（Hands-Free）：特別適用于開(kāi)車(chē)、做家務(wù)等需要雙手操作的場(chǎng)景，提升了用戶(hù)的便利性和安全性。

2. 音頻內(nèi)容分析與理解的基礎(chǔ)

文字轉(zhuǎn)寫(xiě)：語(yǔ)音識(shí)別是將音頻內(nèi)容轉(zhuǎn)化為文本的第一步，這一過(guò)程是進(jìn)一步分析與理解音頻內(nèi)容的基礎(chǔ)。
文本分析：轉(zhuǎn)寫(xiě)后的文本可以進(jìn)行情感分析、主題識(shí)別等處理。
數(shù)據(jù)存檔：轉(zhuǎn)寫(xiě)文本便于存儲(chǔ)和檢索，提升了數(shù)據(jù)的可用性。

3. AIoT和智能服務(wù)的入口

AIoT（人工智能物聯(lián)網(wǎng)）：語(yǔ)音識(shí)別是AIoT設(shè)備的主要交互方式，用戶(hù)可以通過(guò)語(yǔ)音控制智能家居、可穿戴設(shè)備等。
- 智能家居：語(yǔ)音助手控制燈光、溫度、家電等。
- 可穿戴設(shè)備：語(yǔ)音識(shí)別用于健康監(jiān)測(cè)、運(yùn)動(dòng)記錄等。
智能服務(wù)：語(yǔ)音識(shí)別在智能客服、自動(dòng)翻譯等領(lǐng)域有廣泛應(yīng)用。
- 智能客服：自動(dòng)應(yīng)答用戶(hù)問(wèn)題，提高客服效率。
- 自動(dòng)翻譯：實(shí)時(shí)翻譯語(yǔ)音內(nèi)容，打破語(yǔ)言障礙。

4. 滿(mǎn)足自然人機(jī)交互和內(nèi)容理解與生成的需求

自然人機(jī)交互：語(yǔ)音識(shí)別使人機(jī)交互更加自然，用戶(hù)可以通過(guò)語(yǔ)音指令與設(shè)備進(jìn)行交流，提升用戶(hù)體驗(yàn)。
- 虛擬助手：如Siri、Alexa、Google Assistant等通過(guò)語(yǔ)音識(shí)別實(shí)現(xiàn)自然對(duì)話(huà)。
- 導(dǎo)航系統(tǒng)：通過(guò)語(yǔ)音輸入目的地，提高駕駛安全性。
內(nèi)容理解與生成：語(yǔ)音識(shí)別技術(shù)與自然語(yǔ)言處理（NLP）結(jié)合，實(shí)現(xiàn)內(nèi)容的理解與生成。
- 語(yǔ)音搜索：用戶(hù)通過(guò)語(yǔ)音進(jìn)行信息搜索，快速獲取答案。
- 語(yǔ)音生成：將文本轉(zhuǎn)化為自然語(yǔ)音，實(shí)現(xiàn)雙向交流。

5. 技術(shù)與應(yīng)用的廣泛性

醫(yī)療領(lǐng)域：醫(yī)生通過(guò)語(yǔ)音輸入病歷，提高工作效率，減少誤診。
教育領(lǐng)域：語(yǔ)音識(shí)別用于語(yǔ)言學(xué)習(xí)、課堂記錄等，提高學(xué)習(xí)效果。
安防領(lǐng)域：通過(guò)語(yǔ)音識(shí)別進(jìn)行身份驗(yàn)證和監(jiān)控，提高安全性。

四.語(yǔ)音交互

在這里插入圖片描述
圖片來(lái)源：http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain

五.語(yǔ)音生成

語(yǔ)音生成（Speech Production）是指通過(guò)大腦指揮神經(jīng)系統(tǒng)發(fā)出肌肉命令，進(jìn)而控制發(fā)音器官運(yùn)動(dòng)，最終產(chǎn)生聲音的過(guò)程。

1.語(yǔ)音生成過(guò)程

大腦指揮：大腦發(fā)出神經(jīng)信號(hào)，控制肌肉運(yùn)動(dòng)。
神經(jīng)肌肉命令：神經(jīng)系統(tǒng)將命令傳遞到發(fā)音器官。
發(fā)音器官運(yùn)動(dòng)：發(fā)音器官（如聲帶、口腔、鼻腔等）根據(jù)神經(jīng)信號(hào)進(jìn)行運(yùn)動(dòng)，產(chǎn)生聲音。

2.發(fā)音的基本原理

聲門(mén)運(yùn)動(dòng)：聲門(mén)的快速打開(kāi)與關(guān)閉產(chǎn)生不同的聲音。
基本頻率：聲門(mén)震動(dòng)的快慢決定聲音的基本頻率。
口腔、鼻腔、舌頭的位置及嘴型：這些因素共同決定聲音的內(nèi)容。
肺部空氣壓力：肺部壓縮空氣的力量決定音量。

2.聲音類(lèi)型

濁音（Voiced Sounds）：由聲帶震動(dòng)引起，波形具有明顯的周期性，人們可以感受到穩(wěn)定的高音。
清音（Unvoiced Sounds）：聲帶不震動(dòng)，波形類(lèi)似白噪聲，人們無(wú)法感受到穩(wěn)定的高音。

3.語(yǔ)音單元

音素（Phonemes）：
- 音素是語(yǔ)言中語(yǔ)音的最小單元，分為輔音（consonants）和元音（vowels）。
- 音素的數(shù)量因語(yǔ)言而異。
- 同位異音（Allophone）：音素的聲學(xué)實(shí)現(xiàn)受到上下文影響，一個(gè)音素可能有不同的實(shí)現(xiàn)。
詞素（Morpheme）：語(yǔ)言中最小的具有語(yǔ)義的結(jié)構(gòu)單元。
音節(jié)（Syllable）：
- 由元音和輔音結(jié)合構(gòu)成。
- 音節(jié)頭（聲母）：元音之前的輔音。
- 韻母：音節(jié)頭后的元音及隨后的輔音。
  - 音節(jié)核：韻母中的元音。
  - 音節(jié)尾：隨后的輔音。
- 在中文中，一個(gè)漢字的讀音為一個(gè)帶調(diào)音節(jié)（如普通話(huà)約1300多個(gè)帶調(diào)音節(jié)，去掉聲調(diào)后約400個(gè)基礎(chǔ)音節(jié)）。

4.聲學(xué)特征

共振峰（Formants）：
- 在聲音的頻譜中，能量相對(duì)集中的區(qū)域。
- 共振峰決定音質(zhì)，反映聲道的物理特征，不同元音會(huì)產(chǎn)生不同種類(lèi)的共振。
協(xié)同發(fā)音（Coarticulation）：
- 發(fā)音過(guò)程中，每個(gè)音素會(huì)受到前后音素的影響。
- 協(xié)同發(fā)音使得音素的聲學(xué)實(shí)現(xiàn)與上下文強(qiáng)相關(guān)，因此語(yǔ)音識(shí)別中常建立上下文相關(guān)模型。

5.音素抄本

音素抄本（Phonetic Transcription）是一段語(yǔ)音對(duì)應(yīng)的音素列表，可以帶或不帶邊界。音素抄本提供時(shí)間信息，可以通過(guò)人工標(biāo)注或自動(dòng)對(duì)齊獲得。它在語(yǔ)音識(shí)別的聲學(xué)建模中非常重要。

六.語(yǔ)音感知

語(yǔ)音感知（Speech Perception）是指人耳將外界聲音信號(hào)傳遞到大腦，并由大腦進(jìn)行處理和理解的過(guò)程。該過(guò)程包括外耳、中耳和內(nèi)耳的協(xié)同工作，以及聲音的物理特性與人耳聽(tīng)覺(jué)特性之間的關(guān)系。

1.人耳結(jié)構(gòu)

外耳：
- 功能：聲源定位，對(duì)聲音進(jìn)行放大。
- 組成：耳廓和外耳道。
中耳：
- 功能：進(jìn)行聲阻抗變換，放大聲壓，保護(hù)內(nèi)耳。
- 組成：鼓膜和聽(tīng)小骨（錘骨、砧骨、鐙骨）。
內(nèi)耳：
- 功能：將聲壓刺激轉(zhuǎn)化為神經(jīng)沖動(dòng)，發(fā)送到大腦。
- 組成：耳蝸和聽(tīng)神經(jīng)。

2.物理特性與聽(tīng)覺(jué)特性

語(yǔ)音感知涉及聲音的物理量和感知量之間的關(guān)系。下表總結(jié)了這些關(guān)系：

物理量 (Physical Quantity)	感知量 (Perceptual Quantity)
聲強(qiáng) (Intensity)	響度 (Loudness)
基頻 (Fundamental Frequency)	音高或音調(diào) (Pitch)
頻譜形狀 (Spectral Shape)	音色或音品 (Timbre)
起始/結(jié)束時(shí)間 (Onset/offset time)	時(shí)間感知 (Timing)
雙耳聽(tīng)覺(jué)的相位差 (Phase difference in binaural hearing)	定位 (Location)

3.聲音三要素

響度（Loudness）：
- 響度是人主觀(guān)感受到的聲音強(qiáng)度，與聲音的頻率成分有關(guān)。
- 聞閾：人耳剛好能聽(tīng)見(jiàn)的最小響度。
- 痛閾：聲音使人耳感到疼痛時(shí)的響度。

在這里插入圖片描述

圖片來(lái)源：https://www.shenlanxueyuan.com/course/381

音高或音調(diào)（Pitch）：
- 音調(diào)是人耳對(duì)聲音頻率的感知，是非線(xiàn)性的，近似對(duì)數(shù)函數(shù)。
- 音調(diào)和頻率的近似關(guān)系：𝑇𝑚𝑒𝑙=2595log10?(1+𝑓7000)。
  
  𝑓為物理頻率，𝑇𝑚𝑒𝑙為音調(diào)，單位是美（Mel)
音色或音品（Timbre）：
- 音色由聲音波形的諧波頻譜和包絡(luò)決定。
- 基音：聲音波形的基頻產(chǎn)生的最清楚的音。
- 泛音：各次諧波的微小震動(dòng)產(chǎn)生的音。
- 純音：單一頻率的音。
- 復(fù)音：具有諧波的音。
- 不同聲源的音色特征由聲音波形各次諧波的比例和隨時(shí)間的衰減大小決定。

4.掩蔽效應(yīng)

掩蔽效應(yīng)（Masking）是指一個(gè)較強(qiáng)聲音掩蔽附近較弱聲音，使其不易被察覺(jué)的現(xiàn)象。分為兩種情況：

同時(shí)掩蔽（Simultaneous Masking）：一個(gè)強(qiáng)純音會(huì)掩蔽其附近頻率同時(shí)發(fā)生的弱純音。
異時(shí)掩蔽（Temporal Masking）：在時(shí)間上相鄰的聲音之間的掩蔽現(xiàn)象。

掩蔽閾值是時(shí)間、頻率和聲壓級(jí)的函數(shù)。

七.語(yǔ)音識(shí)別的挑戰(zhàn)性

語(yǔ)音識(shí)別（Automatic Speech Recognition, ASR）是一個(gè)非常具有挑戰(zhàn)性的任務(wù)，其在眾多方面表現(xiàn)出強(qiáng)大的可變性。以下是影響語(yǔ)音識(shí)別性能的主要因素及其可變性：

1.主要影響因素及其可變性

因素	可變性描述
規(guī)模	詞表大小、復(fù)雜度/困惑度、書(shū)面化或口語(yǔ)化
說(shuō)話(huà)人	是否特定說(shuō)話(huà)人、適應(yīng)特定說(shuō)話(huà)人的特性
聲學(xué)環(huán)境	噪聲、干擾人聲、信道條件（麥克風(fēng)、傳輸空間、空間聲學(xué)）
講話(huà)風(fēng)格	連續(xù)或孤立詞、有計(jì)劃或即興對(duì)話(huà)、大聲或輕聲細(xì)語(yǔ)
口音/方言	是否能識(shí)別各種口音
語(yǔ)種	中文、英文、超過(guò)5000種語(yǔ)言、語(yǔ)言混雜
信道特性	不同麥克風(fēng)、不同采樣率、傳輸編碼等
環(huán)境影響	距離衰減、噪聲、混響、干擾人聲

2.語(yǔ)音識(shí)別中的變異性

說(shuō)話(huà)人之間的變異性：不同說(shuō)話(huà)人的口音、語(yǔ)速、發(fā)音方式、語(yǔ)調(diào)等各不相同。適應(yīng)多種說(shuō)話(huà)人的特性是語(yǔ)音識(shí)別的一個(gè)重要挑戰(zhàn)。
說(shuō)話(huà)人之內(nèi)的變異性：同一個(gè)人在不同時(shí)間、不同情緒狀態(tài)、不同健康狀態(tài)下，語(yǔ)音特性也會(huì)有所不同。不同講話(huà)方式（如大聲、輕聲、低語(yǔ)）對(duì)語(yǔ)音識(shí)別系統(tǒng)的要求也各不相同。
信道變異性：不同麥克風(fēng)的性能、采樣率和傳輸編碼會(huì)影響語(yǔ)音信號(hào)的質(zhì)量。在不同傳輸條件下，信號(hào)可能會(huì)受到干擾或衰減。
環(huán)境變異性：環(huán)境噪聲、回聲、混響以及干擾人聲等都會(huì)影響語(yǔ)音信號(hào)的清晰度。距離衰減效應(yīng)，尤其在遠(yuǎn)講場(chǎng)景下，語(yǔ)音信號(hào)會(huì)顯著衰減。

3.特殊場(chǎng)景挑戰(zhàn)

CHiME-5場(chǎng)景：多說(shuō)話(huà)人完全自由對(duì)話(huà)。現(xiàn)實(shí)生活中的家居聲學(xué)場(chǎng)景。遠(yuǎn)講情況下的語(yǔ)音識(shí)別。說(shuō)話(huà)人移動(dòng)及語(yǔ)音交疊。

八.語(yǔ)音識(shí)別的發(fā)展歷史

1.早期階段（1950-1960年代）

在語(yǔ)音識(shí)別研究的初期，研究人員主要集中于提出一些基礎(chǔ)的方法和引入關(guān)鍵的思想與概念。由于受限于方法、計(jì)算能力和數(shù)據(jù)量，這一階段的研究主要針對(duì)小詞表的語(yǔ)音識(shí)別，且缺乏大規(guī)模測(cè)試。主要特點(diǎn)包括：

初步探索：提出個(gè)別方法和概念。
小詞表研究：主要集中在小范圍詞匯的語(yǔ)音識(shí)別。
技術(shù)限制：計(jì)算能力和數(shù)據(jù)量的限制使得研究進(jìn)展緩慢。

2.現(xiàn)代語(yǔ)音識(shí)別的誕生（1970-1980年代）

這個(gè)階段標(biāo)志著語(yǔ)音識(shí)別從基礎(chǔ)研究進(jìn)入了統(tǒng)計(jì)學(xué)習(xí)時(shí)代，幾乎忽略了語(yǔ)音學(xué)和語(yǔ)言學(xué)的專(zhuān)家知識(shí)，轉(zhuǎn)而使用數(shù)據(jù)驅(qū)動(dòng)的方法。關(guān)鍵技術(shù)和方法在此期間得以發(fā)展，包括：

統(tǒng)計(jì)學(xué)習(xí)方法：將語(yǔ)音識(shí)別視為統(tǒng)計(jì)學(xué)習(xí)任務(wù)。
關(guān)鍵技術(shù)：引入了EM算法、N-gram等。
中大詞表嘗試：開(kāi)始嘗試中大詞表的語(yǔ)音識(shí)別系統(tǒng)。

3.平穩(wěn)發(fā)展期（1990-2000年代）

在這一階段，GMM-HMM（高斯混合模型-隱馬爾科夫模型）框架成為主導(dǎo)，語(yǔ)音識(shí)別系統(tǒng)得以進(jìn)一步發(fā)展。主要進(jìn)展包括：

GMM-HMM框架：成為語(yǔ)音識(shí)別的主流框架。
上下文相關(guān)建模：聲學(xué)建模開(kāi)始考慮基于上下文相關(guān)的模型。
n-gram語(yǔ)言模型：使用大量文本統(tǒng)計(jì)概率關(guān)系。
數(shù)據(jù)和任務(wù)復(fù)雜度增加：數(shù)據(jù)量和任務(wù)復(fù)雜度逐步增加。
判別式學(xué)習(xí)：引入?yún)^(qū)分性訓(xùn)練技術(shù)推動(dòng)進(jìn)步。

盡管技術(shù)不斷進(jìn)步，但語(yǔ)音識(shí)別的準(zhǔn)確率在這一時(shí)期鮮有顯著提升。

3.深度學(xué)習(xí)時(shí)代（2006年至今）

2006年是語(yǔ)音識(shí)別歷史上的一個(gè)重要轉(zhuǎn)折點(diǎn)，標(biāo)志著深度學(xué)習(xí)技術(shù)的引入和廣泛應(yīng)用。在此之后，語(yǔ)音識(shí)別的準(zhǔn)確率顯著提升，主要特點(diǎn)包括：

深度神經(jīng)網(wǎng)絡(luò)（DNNs）：深度學(xué)習(xí)模型的應(yīng)用大幅提升了語(yǔ)音識(shí)別的性能。
大規(guī)模數(shù)據(jù)和計(jì)算能力：利用更大的數(shù)據(jù)集和更強(qiáng)的計(jì)算能力進(jìn)行訓(xùn)練。
持續(xù)改進(jìn)：技術(shù)不斷進(jìn)步，推動(dòng)語(yǔ)音識(shí)別系統(tǒng)向更高的準(zhǔn)確率和更廣泛的應(yīng)用場(chǎng)景發(fā)展。

九.現(xiàn)代語(yǔ)音識(shí)別框架

現(xiàn)代語(yǔ)音識(shí)別框架主要分為兩類(lèi)：統(tǒng)計(jì)模型和端到端系統(tǒng)。

1.統(tǒng)計(jì)模型

統(tǒng)計(jì)模型的核心思想是通過(guò)計(jì)算最有可能的單詞序列來(lái)進(jìn)行語(yǔ)音識(shí)別。假設(shè)有一個(gè)聲學(xué)特征向量（觀(guān)測(cè)向量）的序列 X，表示一個(gè)單詞序列 W，那么最有可能的單詞序列可以通過(guò)以下公式計(jì)算得出：
$\hat{W} = \arg\max_W P(W|X)$
應(yīng)用貝葉斯定理，這一公式可以進(jìn)一步推導(dǎo)為：
$\frac{p(X|W)P(W)}{p(X)} \propto p(X|W)P(W)$
其中：

p(X∣W) 是 聲學(xué)模型，用于計(jì)算給定單詞序列 W 下的聲學(xué)特征向量 X的概率。
P(W) 是 語(yǔ)言模型，用于計(jì)算單詞序列 W的先驗(yàn)概率。

通過(guò)組合聲學(xué)模型和語(yǔ)言模型，統(tǒng)計(jì)模型可以通過(guò)給定的聲學(xué)特征向量 X獲取最有可能的詞序列。

現(xiàn)代的統(tǒng)計(jì)模型通常使用三大組件：

聲學(xué)模型：用于計(jì)算聲學(xué)特征向量的概率分布。
語(yǔ)言模型：用于計(jì)算單詞序列的先驗(yàn)概率。
發(fā)音詞典：提供單詞與其發(fā)音之間的映射。

圖片來(lái)源：https://www.shenlanxueyuan.com/course/381

2.端到端系統(tǒng)

端到端系統(tǒng)使用一個(gè)神經(jīng)網(wǎng)絡(luò)直接將輸入的聲學(xué)特征向量 X映射為詞序列。這種方法簡(jiǎn)化了傳統(tǒng)統(tǒng)計(jì)模型的復(fù)雜架構(gòu)，避免了多個(gè)組件的獨(dú)立優(yōu)化和組合，具有以下特點(diǎn)：

直接映射：通過(guò)神經(jīng)網(wǎng)絡(luò)直接將聲學(xué)特征向量轉(zhuǎn)換為單詞序列。
簡(jiǎn)化架構(gòu)：省去聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典的獨(dú)立建模和組合。
統(tǒng)一訓(xùn)練：在一個(gè)訓(xùn)練過(guò)程中同時(shí)優(yōu)化聲學(xué)和語(yǔ)言模型的參數(shù)。