基于MAP算法和高階倒譜歸整的電話語音識(shí)別方法
發(fā)布時(shí)間:2007/4/23 0:00:00 訪問次數(shù):687
摘要:介紹一種融合最大后驗(yàn)概率算法和改進(jìn)的高階倒譜歸整的抗噪聲語音識(shí)別方法。將最大后驗(yàn)概率算法用于特征空間來估計(jì)電話通道特性(通道差的估計(jì)),用分段高階倒譜歸整進(jìn)行后續(xù)補(bǔ)償,可以同時(shí)減少電話語音中卷積噪聲和加性噪聲的影響。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,與傳統(tǒng)的倒譜均值減相比,訓(xùn)練庫中識(shí)別率從46.3%提高到87.5%。
關(guān)鍵詞:電話語音識(shí)別 高階倒譜規(guī)整 最大后驗(yàn)概率估計(jì) 分段
電話語音識(shí)別借助通信平臺(tái),實(shí)現(xiàn)了語音技術(shù)的更廣泛應(yīng)用,人們通過最便捷的電話方式可以查詢到遠(yuǎn)端數(shù)據(jù)庫中的所需信息,給日常生活帶來了極大的方便。然而由于電話網(wǎng)絡(luò)中各種噪聲的影響,使得語音識(shí)別系統(tǒng)的性能大幅度下降。電話語音的噪聲主要分為兩部分:背景噪聲和電噪聲的影響為加性噪聲;由電話話筒和傳輸線引起的通道影響,即卷積噪聲。盡可能地減少這兩種噪聲在電話語音中的影響,提高電話語音的魯棒性是系統(tǒng)達(dá)到實(shí)用化的關(guān)鍵。
針對電話語音魯棒性的研究,前人已經(jīng)作了很多工作,提出的一些方法如倒譜均值減[1](CMS)、CDCN[2](Codeword-Dependent Cepstral Normalization)、相對譜RASTA[3](RelAtive SpecTral)處理技術(shù)等,對減少測試環(huán)境與訓(xùn)練環(huán)境的失配都有一定的效果。但隨著噪聲的增強(qiáng),以上方法對系統(tǒng)性能的提高都在非常有限。
基于最大后驗(yàn)概率(MAP)算法的自適應(yīng)方法利用Bayes理論,通過對模型參數(shù)進(jìn)行修正,顯示了相當(dāng)好的性能。為了減小模型計(jì)算的復(fù)雜度,該文也將MAP算法用于特征空間,用該算法估計(jì)電話通道影響。高階倒譜歸整是將倒譜均值減的均值歸一擴(kuò)展到更高階階矩歸一。研究發(fā)現(xiàn),當(dāng)歸一化較高階數(shù)的階矩時(shí),失配進(jìn)一步減少,帶噪語音信號(hào)的概率密度函數(shù)更接近干凈語音的概率密度函數(shù),特征參數(shù)更具有魯棒性。
本文提出了一種基于最大后驗(yàn)概率算法的估計(jì)通道影響方法,并用改進(jìn)的高階倒譜歸整作后續(xù)補(bǔ)償,將兩者結(jié)合同時(shí)提高系統(tǒng)對加性噪聲和卷積噪聲的魯棒性。實(shí)驗(yàn)表明這種方法能有效地提高電文事音識(shí)別系統(tǒng)的識(shí)別率。
1 算法描述
1.1 通道估計(jì)理論
假設(shè)Y(n)表示實(shí)際的電話語音倒譜矢量,X(n)表示純凈語音的倒譜矢量,h表示通道響應(yīng)的倒譜失量。在不考慮北京噪聲的情況下有:
Y(n)=X(n)+h (1)
將(1)式兩邊同時(shí)減去通道矢量的估計(jì)值h,有
Y'(n)Y(n)-h=X(n)+h-h=X(n)+Δh (2)
其中Δh=h-h。目的是盡可能地使Y'(n)接近于X(n),若再將(2)式兩邊同時(shí)減去Δh的估計(jì)值Δh,可以進(jìn)一步減少失配。
Y″(n)=Y'(n)-Δh=X(n)+Δh' (3)
其中Δh=Δh-Δh。
研究發(fā)現(xiàn),CMS是用于估計(jì)通道矢量的有效方法之一,因其有理簡單、計(jì)算方便而應(yīng)用廣泛。由CMS方法得到h=Y后,(3)式表示為:
Y″(n)=Y(n)-Y-Δh (4)
1.2 MAP算法[4-5]
在MAP算法中,后驗(yàn)概率由似然函數(shù)和先驗(yàn)概率組成。由于引入了通道的先驗(yàn)統(tǒng)計(jì)特性,理論上MAP算法比最大似然估計(jì)算法(ML)估計(jì)得要準(zhǔn)確。因此,用MAP估計(jì)通道向量與均值的差,把(4)式中的Δh表示為ΔhMAP,同時(shí),為了表示方便,將Y(n)-Y用Z來表示。
運(yùn)用MAP算法求ΔhMAP,用公式表示為:
ΔhMAP=argmax P(Δh/Z) (5)
其中P(Δh/Z)是后驗(yàn)概率,直接從(5)式中估計(jì)ΔhMAP是很困難的,然而(5)式等價(jià)為:
為計(jì)算方便是,將(6)式取對數(shù),得到:
基于MAP算法和高階倒譜歸整的電話語音識(shí)別方法 [日期:2005-12-27] 來源:電子技術(shù)應(yīng)用 作者:徐 潔 楊鼎才 [字體:大 中 小]
摘要:介紹一種融合最大后驗(yàn)概率算法和改進(jìn)的高階倒譜歸整的抗噪聲語音識(shí)別方法。將最大后驗(yàn)概率算法用于特征空間來估計(jì)電話通道特性(通道差的估計(jì)),用分段高階倒譜歸整進(jìn)行后續(xù)補(bǔ)償,可以同時(shí)減少電話語音中卷積噪聲和加性噪聲的影響。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,與傳統(tǒng)的倒譜均值減相比,訓(xùn)練庫中識(shí)別率從46.3%提高到87.5%。
關(guān)鍵詞:電話語音識(shí)別 高階倒譜規(guī)整 最大后驗(yàn)概率估計(jì) 分段
電話語音識(shí)別借助通信平臺(tái),實(shí)現(xiàn)了語音技術(shù)的更廣泛應(yīng)用,人們通過最便捷的電話方式可以查詢到遠(yuǎn)端數(shù)據(jù)庫中的所需信息,給日常生活帶來了極大的方便。然而由于電話網(wǎng)絡(luò)中各種噪聲的影響,使得語音識(shí)別系統(tǒng)的性能大幅度下降。電話語音的噪聲主要分為兩部分:背景噪聲和電噪聲的影響為加性噪聲;由電話話筒和傳輸線引起的通道影響,即卷積噪聲。盡可能地減少這兩種噪聲在電話語音中的影響,提高電話語音的魯棒性是系統(tǒng)達(dá)到實(shí)用化的關(guān)鍵。
針對電話語音魯棒性的研究,前人已經(jīng)作了很多工作,提出的一些方法如倒譜均值減[1](CMS)、CDCN[2](Codeword-Dependent Cepstral Normalization)、相對譜RASTA[3](RelAtive SpecTral)處理技術(shù)等,對減少測試環(huán)境與訓(xùn)練環(huán)境的失配都有一定的效果。但隨著噪聲的增強(qiáng),以上方法對系統(tǒng)性能的提高都在非常有限。
基于最大后驗(yàn)概率(MAP)算法的自適應(yīng)方法利用Bayes理論,通過對模型參數(shù)進(jìn)行修正,顯示了相當(dāng)好的性能。為了減小模型計(jì)算的復(fù)雜度,該文也將MAP算法用于特征空間,用該算法估計(jì)電話通道影響。高階倒譜歸整是將倒譜均值減的均值歸一擴(kuò)展到更高階階矩歸一。研究發(fā)現(xiàn),當(dāng)歸一化較高階數(shù)的階矩時(shí),失配進(jìn)一步減少,帶噪語音信號(hào)的概率密度函數(shù)更接近干凈語音的概率密度函數(shù),特征參數(shù)更具有魯棒性。
本文提出了一種基于最大后驗(yàn)概率算法的估計(jì)通道影響方法,并用改進(jìn)的高階倒譜歸整作后續(xù)補(bǔ)償,將兩者結(jié)合同時(shí)提高系統(tǒng)對加性噪聲和卷積噪聲的魯棒性。實(shí)驗(yàn)表明這種方法能有效地提高電文事音識(shí)別系統(tǒng)的識(shí)別率。
1 算法描述
1.1 通道估計(jì)理論
假設(shè)Y(n)表示實(shí)際的電話語音倒譜矢量,X(n)表示純凈語音的倒譜矢量,h表示通道響應(yīng)的倒譜失量。在不考慮北京噪聲的情況下有:
Y(n)=X(n)+h (1)
將(1)式兩邊同時(shí)減去通道矢量的估計(jì)值h,有
Y'(n)Y(n)-h=X(n)+h-h=X(n)+Δh (2)
其中Δh=h-h。目的是盡可能地使Y'(n)接近于X(n),若再將(2)式兩邊同時(shí)減去Δh的估計(jì)值Δh,可以進(jìn)一步減少失配。
Y″(n)=Y'(n)-Δh=X(n)+Δh' (3)
其中Δh=Δh-Δh。
研究發(fā)現(xiàn),CMS是用于估計(jì)通道矢量的有效方法之一,因其有理簡單、計(jì)算方便而應(yīng)用廣泛。由CMS方法得到h=Y后,(3)式表示為:
Y″(n)=Y(n)-Y-Δh (4)
1.2 MAP算法[4-5]
在MAP算法中,后驗(yàn)概率由似然函數(shù)和先驗(yàn)概率組成。由于引入了通道的先驗(yàn)統(tǒng)計(jì)特性,理論上MAP算法比最大似然估計(jì)算法(ML)估計(jì)得要準(zhǔn)確。因此,用MAP估計(jì)通道向量與均值的差,把(4)式中的Δh表示為ΔhMAP,同時(shí),為了表示方便,將Y(n)-Y用Z來表示。
運(yùn)用MAP算法求ΔhMAP,用公式表示為:
ΔhMAP=argmax P(Δh/Z) (5)
其中P(Δh/Z)是后驗(yàn)概率,直接從(5)式中估計(jì)ΔhMAP是很困難的,然而(5)式等價(jià)為:
為計(jì)算方便是,將(6)式取對數(shù),得到:
熱門點(diǎn)擊
- EMG在語音信號(hào)識(shí)別中的應(yīng)用
- 一種基于圖像處理的自動(dòng)調(diào)焦系統(tǒng)
- 雙口RAM通訊在電機(jī)控制中的應(yīng)用
- 二相步進(jìn)電機(jī)驅(qū)動(dòng)芯片TA8435H及其應(yīng)用
- 多功能車輛總線控制器芯片(MVBC)的幀收發(fā)
- 煤礦井下采區(qū)無人值守變電所微機(jī)保護(hù)系統(tǒng)的研究
- CD4051和AD595制作的溫度采集儀
- 基于MSP430和USB的數(shù)據(jù)采集系統(tǒng)
- 運(yùn)動(dòng)員起跑反應(yīng)時(shí)無線測量系統(tǒng)的研究和實(shí)現(xiàn)
- 白噪聲序列檢驗(yàn)的小波分析方法
推薦技術(shù)資料
- 滑雪繞樁機(jī)器人
- 本例是一款非常有趣,同時(shí)又有一定調(diào)試難度的玩法。EDE2116AB... [詳細(xì)]
- CV/CC InnoSwitch3-AQ 開
- URF1DxxM-60WR3系
- 1-6W URA24xxN-x
- 閉環(huán)磁通門信號(hào)調(diào)節(jié)芯片NSDRV401
- SK-RiSC-SOM-H27X-V1.1應(yīng)
- RISC技術(shù)8位微控制器參數(shù)設(shè)
- 多媒體協(xié)處理器SM501在嵌入式系統(tǒng)中的應(yīng)用
- 基于IEEE802.11b的EPA溫度變送器
- QUICCEngine新引擎推動(dòng)IP網(wǎng)絡(luò)革新
- SoC面世八年后的產(chǎn)業(yè)機(jī)遇
- MPC8xx系列處理器的嵌入式系統(tǒng)電源設(shè)計(jì)
- dsPIC及其在交流變頻調(diào)速中的應(yīng)用研究
深圳服務(wù)熱線:13692101218 13751165337
粵ICP備09112631號(hào)-6(miitbeian.gov.cn)

深圳市碧威特網(wǎng)絡(luò)技術(shù)有限公司
付款方式