語音識(shí)別技術(shù)及特點(diǎn)
發(fā)布時(shí)間:2009/2/11 0:00:00 訪問次數(shù):562
語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),也就是讓機(jī)器聽懂人類的語音。也就是說,如果電腦配置有“語音辨識(shí)”的程序組,那么當(dāng)你的聲音通過一個(gè)轉(zhuǎn)換裝置輸入電腦內(nèi)部、并以數(shù)位方式儲(chǔ)存后,語音辨識(shí)程序便開始以你輸入的聲音樣本與事先儲(chǔ)存好的聲音樣本進(jìn)行對(duì)比工作。聲音對(duì)比工作完成之后,電腦就會(huì)輸入一個(gè)它認(rèn)為最“象”的聲音樣本序號(hào),就可以知道你剛才念的聲音是什么意義,進(jìn)而執(zhí)行此命令。說起來簡(jiǎn)單,但要真正建立辨識(shí)率高的語音辨識(shí)程序組,卻是非常困難而專業(yè)的,世界各地的學(xué)者們也還在努力研究最好的方式。專家學(xué)者們研究出許多破解這個(gè)問題的方法,如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,使目前的語音辨識(shí)系統(tǒng)已達(dá)到一個(gè)可接受的程度,并且辨識(shí)度愈來愈高。
計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分:
(1)語音特征提。耗康氖菑恼Z音波形中提取隨時(shí)間變化的語音特征序列。
。2)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語音特征通過訓(xùn)練產(chǎn)生,目的是為每個(gè)發(fā)音建立發(fā)音模板。在識(shí)別時(shí)將未知的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,計(jì)算未知語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大影響。
。3)語義理解:計(jì)算機(jī)對(duì)識(shí)別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便做出相應(yīng)的反應(yīng)。通常是通過語言模型來實(shí)現(xiàn)。
所謂“語音識(shí)別”,就是利用電子計(jì)算機(jī)等機(jī)械裝置來識(shí)別人講話的意義和內(nèi)容。20世紀(jì)50代,就有人提出“口授打印機(jī)”的設(shè)恕。可以說,這是有關(guān)語音識(shí)別技術(shù)最早構(gòu)想。
語音識(shí)別技術(shù)經(jīng)歷了語音識(shí)別、語音合成以及自然語音合成3個(gè)階段。從原理上講,似乎讓計(jì)算機(jī)識(shí)別人的語言并不難,其實(shí)困難還是不少的。例如,不同的人讀同一個(gè)詞所發(fā)出的音在聲學(xué)特征上卻不完全相同;即便是同一個(gè)人,右不同情況下對(duì)同一個(gè)字的發(fā)音也不相同。加上人們講話時(shí)常有不合語法規(guī)律的情況,有時(shí)還夾雜些俗語,或省略一些詞語,而且語速變化不定。所有這些,在我們聽別人講話時(shí)似乎都不成為問題,但讓機(jī)器理解則很是困難。近年來,由于計(jì)算機(jī)功能的日益強(qiáng)大,存儲(chǔ)技術(shù)、語音算法技術(shù)和信號(hào)處理技術(shù)的長(zhǎng)足進(jìn)步,以及軟件編程水平的提高,語音識(shí)別技術(shù)已經(jīng)取得突破性的進(jìn)展,使它的廣泛應(yīng)用成為可能。
語音識(shí)別技術(shù)的應(yīng)用主要有以下兩個(gè)方面。一是用于人機(jī)交流。目前這方面應(yīng)用的呼聲很高,因?yàn)槭褂面I盤、鼠標(biāo)與電子計(jì)算機(jī)進(jìn)行交流的這種方式,使許多非專業(yè)人員,特別是不懂英語或不熟悉漢語拼音的人被拒之于門外,影響到電子計(jì)算機(jī)的進(jìn)一步普及。語音識(shí)別技術(shù)的采用,改變了人與計(jì)算機(jī)的互動(dòng)模式,人們只需動(dòng)動(dòng)口,就能打開或關(guān)閉程序,改變工作界面。這種使電腦人性化的結(jié)果是使人的雙手得到解放,使每個(gè)人都能操作和應(yīng)用計(jì)算機(jī)。電話仍是目前使用最為普遍的通信工具,通過電話與語音識(shí)別系統(tǒng)的協(xié)同工作,可以實(shí)現(xiàn)語音撥號(hào)、電話購(gòu)物以及通過電話辦理銀行業(yè)務(wù)、炒股、上網(wǎng)檢索信息或處理電子件等。不久,能按主人口令接通電話、打開收音機(jī),以及通過聲紋識(shí)別來者身份的安全系統(tǒng)也將獲得應(yīng)用。
語音識(shí)別技術(shù)的另一方面應(yīng)用便是語音輸入和合成語音輸出,F(xiàn)在,已經(jīng)出現(xiàn)能將口述的文稿輸入計(jì)算機(jī)并按指定格式編排的語音軟件,它比通過鍵盤輸入在速度上要提高2~4倍。裝有語音軟件的電腦還能通過語音合成把計(jì)算機(jī)里的文件用各種語言“讀”出來,這將大大推進(jìn)遠(yuǎn)程通信和網(wǎng)絡(luò)電話的發(fā)展。
在現(xiàn)階段,語音技術(shù)主要用于電子商務(wù)、客戶服務(wù)和教育培訓(xùn)等領(lǐng)域,它對(duì)于節(jié)省人力、時(shí)間,提高工作效率將起到明顯的作用。能實(shí)現(xiàn)自動(dòng)翻譯的語音識(shí)別系統(tǒng)目前也正在研究、完善之中。
語音識(shí)別是一門交叉學(xué)科。近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來 10 年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。
計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分:
1、 語音特征提。浩淠康氖菑恼Z音波形中提取出隨時(shí)間變化的語音特征序列。
2、 聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。
3、語言模型與語言處理:語言模型包括由識(shí)別語音命令構(gòu)成的語
語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),也就是讓機(jī)器聽懂人類的語音。也就是說,如果電腦配置有“語音辨識(shí)”的程序組,那么當(dāng)你的聲音通過一個(gè)轉(zhuǎn)換裝置輸入電腦內(nèi)部、并以數(shù)位方式儲(chǔ)存后,語音辨識(shí)程序便開始以你輸入的聲音樣本與事先儲(chǔ)存好的聲音樣本進(jìn)行對(duì)比工作。聲音對(duì)比工作完成之后,電腦就會(huì)輸入一個(gè)它認(rèn)為最“象”的聲音樣本序號(hào),就可以知道你剛才念的聲音是什么意義,進(jìn)而執(zhí)行此命令。說起來簡(jiǎn)單,但要真正建立辨識(shí)率高的語音辨識(shí)程序組,卻是非常困難而專業(yè)的,世界各地的學(xué)者們也還在努力研究最好的方式。專家學(xué)者們研究出許多破解這個(gè)問題的方法,如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,使目前的語音辨識(shí)系統(tǒng)已達(dá)到一個(gè)可接受的程度,并且辨識(shí)度愈來愈高。
計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分:
。1)語音特征提。耗康氖菑恼Z音波形中提取隨時(shí)間變化的語音特征序列。
。2)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語音特征通過訓(xùn)練產(chǎn)生,目的是為每個(gè)發(fā)音建立發(fā)音模板。在識(shí)別時(shí)將未知的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,計(jì)算未知語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大影響。
。3)語義理解:計(jì)算機(jī)對(duì)識(shí)別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便做出相應(yīng)的反應(yīng)。通常是通過語言模型來實(shí)現(xiàn)。
所謂“語音識(shí)別”,就是利用電子計(jì)算機(jī)等機(jī)械裝置來識(shí)別人講話的意義和內(nèi)容。20世紀(jì)50代,就有人提出“口授打印機(jī)”的設(shè)恕?梢哉f,這是有關(guān)語音識(shí)別技術(shù)最早構(gòu)想。
語音識(shí)別技術(shù)經(jīng)歷了語音識(shí)別、語音合成以及自然語音合成3個(gè)階段。從原理上講,似乎讓計(jì)算機(jī)識(shí)別人的語言并不難,其實(shí)困難還是不少的。例如,不同的人讀同一個(gè)詞所發(fā)出的音在聲學(xué)特征上卻不完全相同;即便是同一個(gè)人,右不同情況下對(duì)同一個(gè)字的發(fā)音也不相同。加上人們講話時(shí)常有不合語法規(guī)律的情況,有時(shí)還夾雜些俗語,或省略一些詞語,而且語速變化不定。所有這些,在我們聽別人講話時(shí)似乎都不成為問題,但讓機(jī)器理解則很是困難。近年來,由于計(jì)算機(jī)功能的日益強(qiáng)大,存儲(chǔ)技術(shù)、語音算法技術(shù)和信號(hào)處理技術(shù)的長(zhǎng)足進(jìn)步,以及軟件編程水平的提高,語音識(shí)別技術(shù)已經(jīng)取得突破性的進(jìn)展,使它的廣泛應(yīng)用成為可能。
語音識(shí)別技術(shù)的應(yīng)用主要有以下兩個(gè)方面。一是用于人機(jī)交流。目前這方面應(yīng)用的呼聲很高,因?yàn)槭褂面I盤、鼠標(biāo)與電子計(jì)算機(jī)進(jìn)行交流的這種方式,使許多非專業(yè)人員,特別是不懂英語或不熟悉漢語拼音的人被拒之于門外,影響到電子計(jì)算機(jī)的進(jìn)一步普及。語音識(shí)別技術(shù)的采用,改變了人與計(jì)算機(jī)的互動(dòng)模式,人們只需動(dòng)動(dòng)口,就能打開或關(guān)閉程序,改變工作界面。這種使電腦人性化的結(jié)果是使人的雙手得到解放,使每個(gè)人都能操作和應(yīng)用計(jì)算機(jī)。電話仍是目前使用最為普遍的通信工具,通過電話與語音識(shí)別系統(tǒng)的協(xié)同工作,可以實(shí)現(xiàn)語音撥號(hào)、電話購(gòu)物以及通過電話辦理銀行業(yè)務(wù)、炒股、上網(wǎng)檢索信息或處理電子件等。不久,能按主人口令接通電話、打開收音機(jī),以及通過聲紋識(shí)別來者身份的安全系統(tǒng)也將獲得應(yīng)用。
語音識(shí)別技術(shù)的另一方面應(yīng)用便是語音輸入和合成語音輸出,F(xiàn)在,已經(jīng)出現(xiàn)能將口述的文稿輸入計(jì)算機(jī)并按指定格式編排的語音軟件,它比通過鍵盤輸入在速度上要提高2~4倍。裝有語音軟件的電腦還能通過語音合成把計(jì)算機(jī)里的文件用各種語言“讀”出來,這將大大推進(jìn)遠(yuǎn)程通信和網(wǎng)絡(luò)電話的發(fā)展。
在現(xiàn)階段,語音技術(shù)主要用于電子商務(wù)、客戶服務(wù)和教育培訓(xùn)等領(lǐng)域,它對(duì)于節(jié)省人力、時(shí)間,提高工作效率將起到明顯的作用。能實(shí)現(xiàn)自動(dòng)翻譯的語音識(shí)別系統(tǒng)目前也正在研究、完善之中。
語音識(shí)別是一門交叉學(xué)科。近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來 10 年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。
計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分:
1、 語音特征提。浩淠康氖菑恼Z音波形中提取出隨時(shí)間變化的語音特征序列。
2、 聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。
3、語言模型與語言處理:語言模型包括由識(shí)別語音命令構(gòu)成的語
上一篇:非結(jié)晶硅太陽電池概念
上一篇:模式識(shí)別的基本概念
熱門點(diǎn)擊
- 數(shù)字錄音電話原理
- 同軸電纜接頭的安裝
- 光隔離器的工作原理及特點(diǎn)
- 分析模擬信號(hào)和數(shù)字信號(hào)之間的區(qū)別
- SCI自動(dòng)波特率檢測(cè)
- 什么是HMIC和MMIC
- 折疊偶極天線基本原理
- HID簡(jiǎn)介
- HID的群組描述符
- 相控陣天線基本概念及原理
推薦技術(shù)資料
- FU-19推挽功放制作
- FU-19是國(guó)產(chǎn)大功率發(fā)射雙四極功率電二管,EPL20... [詳細(xì)]
- AMOLED顯示驅(qū)動(dòng)芯片關(guān)鍵技
- CMOS圖像傳感器技術(shù)參數(shù)設(shè)計(jì)
- GB300 超級(jí)芯片應(yīng)用需求分
- 4NP 工藝NVIDIA Bl
- GB300 芯片、NVL72
- 首個(gè)最新高端芯片人工智能服務(wù)器
- 多媒體協(xié)處理器SM501在嵌入式系統(tǒng)中的應(yīng)用
- 基于IEEE802.11b的EPA溫度變送器
- QUICCEngine新引擎推動(dòng)IP網(wǎng)絡(luò)革新
- SoC面世八年后的產(chǎn)業(yè)機(jī)遇
- MPC8xx系列處理器的嵌入式系統(tǒng)電源設(shè)計(jì)
- dsPIC及其在交流變頻調(diào)速中的應(yīng)用研究