語音信號編碼
發(fā)布時間:2008/12/17 0:00:00 訪問次數(shù):625
早期的語音信號處理及傳輸均是以模擬的方式進行的。20世紀30年代末脈沖編碼調(diào)制(pcm,pulse code modulation)原理和聲碼器(vocoder)概念被提出后,語音數(shù)字編碼便一直沿著這兩個方向發(fā)展。語音數(shù)據(jù)壓縮目的是能在盡可能低的傳輸速率上獲得高質(zhì)量的語音效果,即希望語音信號可以在帶寬較窄的信道中傳輸而語音質(zhì)量下降的不多或盡可能不下降。語音編碼系統(tǒng)早期用的是波形編碼方法,也叫波形編碼(或非參數(shù)編碼),其目的是力圖使重建的語音波形保持原語音信號的波形形狀。這種編碼器是把語音信號當成一般的波形信號來處理,而并未考慮語音信號的冗佘度。它的優(yōu)點是具有較強的適應能力,有較好的合成語音質(zhì)量,然而編碼速率高(64kbit/s),編碼效率極低。脈沖編碼調(diào)制(pcm)、自適應增量調(diào)制(adm)、自適應差分編碼(adpcm)、自適應編碼(apc)等都是屬于波形編碼(非參數(shù)編碼)。而聲碼器則是不同于波形編碼器的高效編碼方式。聲碼器又稱參數(shù)編碼(或模型編碼),它主要是對提取的語音信號特征參數(shù)進行編碼,目的主要是使重建的語音信號具有盡可能高的可懂度,而不是要求重建波形保持原語音波形的形狀。因此,可能出現(xiàn)的情況是即使重建語音的可懂度高,但其時域波形與原語音的時域波形有較大的差別。這種編碼器的優(yōu)點是可達到極低的編碼速率而語音依然可懂,編碼速率可達到8kbit/s、4.8kbit/s甚至更低。主要缺點是重建語音自然度低,韻律感差,合成語音質(zhì)量差。聲碼器的典型代表是通道聲碼器、共峰聲碼器及線性預測聲碼器等。
20世紀80年代至今,不僅聲碼器和波形編碼器得到了很大發(fā)展,并且還有一種全新的革命性編碼方法被普遍推廣,這類編碼器叫混合編碼器。這種編碼器在傳送器中對給定編碼結(jié)構(gòu)的所有可能性進行綜合,找出輸人語音的最好編碼形式,并從這些可能性中發(fā)現(xiàn)輸入語音的最優(yōu)主觀匹配,然后用數(shù)碼表示這種主觀匹配并發(fā)送到接收器。利用線性預測、vq、a-b-s、感覺加權(quán)、后濾波等技術(shù)得到的多脈沖激勵線性預測(mpelp,multi pulse enspirit lineprognosticate),規(guī)則脈沖激勵線性預測(rpelp,rule pulse enspirit line prognosticate),碼本激勵線性預測(celp,code enspirit line prognosticate) 編碼速率達到8~16kbit/s甚至更底,其話音質(zhì)量高、編碼速率低,但算法復雜。
近年來,itu-t在多媒體數(shù)字通信方面(包括電視會議等)制定了一系列國際標準(按itu的說法是建議)。
表1 itu-t多媒體會議標準(基本模式)
在現(xiàn)有的網(wǎng)路設施條仵下,h.320和h.323比較適用的標準。h.320的基本音頻模式是g.711 log-pcm(對數(shù)脈碼調(diào)制)編碼解碼器,它是一種簡單的8khz采樣頻率對數(shù)脈碼調(diào)制模式,長期以來它都是數(shù)字電話網(wǎng)絡主要的編碼方法(長途電話盡管起源于模擬電話,現(xiàn)在長途電話在數(shù)字網(wǎng)絡上傳輸)。
g.711定義為8位編碼,速率為64kbit/s,但在h.320中采樣截短為6或7比特位,因為速率相應變?yōu)?8kbit/s或56kbit/s。g.711提供了出色的長話音質(zhì)窄帶(3khz音頻帶寬)語音、不太明顯的編解碼延遲(低于1ms)以及非常低的實現(xiàn)復雜性。為了提供與普通g.711音頻電話的兼容性,所有的h.320呼叫在h.221 fas和bas信道中進行同步初始化和模式協(xié)商時開始發(fā)送和接收g.711音頻。
g.711有很多優(yōu)點,但是g.711指定了兩個不同的編碼a律和μ律,在采用g.711標準的區(qū)域,不同地方使用上述兩種不同的方法。ccitt不能達成統(tǒng)一的編碼方法。結(jié)果是h.320系統(tǒng)必須由遠端在每次呼叫開始時自動發(fā)現(xiàn)使用的編碼律,或者避免使用音頻直到h.320控制過程能用來建立另一音頻模式。而且,g.711因為它的低復雜性和與普遍電話的兼容性成為h.320的基本音頻模式,但與其他h.320音頻模式相比在使用帶寬方面它是效率低下的。如果轉(zhuǎn)到其他音頻模式下節(jié)省的數(shù)據(jù)帶寬可用來傳送更多的視頻位,將使h.320視頻質(zhì)量有很大不同,特別是在普通的2-b(128kbit/s)h.320呼叫上。
鑒于g.711語音壓縮協(xié)議本身的一些缺點,人們一直在找一種替代它的協(xié)議,現(xiàn)在已經(jīng)開始用的有g(shù).722協(xié)議和g.728協(xié)議。
g.728是目前h.320中用得較多的窄帶音頻模式。它是基于通常的8khz窄帶采樣和5個采樣(0.625ms)的音頻幀的低時延碼本激勵線性編碼(ld-celp),比特率為16kbit/s,提供很好的長話音質(zhì),總延遲為大約1.875ms。
在現(xiàn)有網(wǎng)絡條件下,需要一個窄帶音頻模式,但是又要有相當好的語音質(zhì)量。 最近建立的8kbit/s電話標準真正提高了該速率下的語音品質(zhì)并改善了復雜性,這種編碼器在某種程度上是一個突破,因此它的嚴格規(guī)范使性能達到或超過了32kbit/s的g.726 adpcm,但速率僅為8kbit/s。itu g.729 skbit/s標準在性能上不亞于g.726,其算法延時少于16ms,隨機誤碼和背景噪聲的
早期的語音信號處理及傳輸均是以模擬的方式進行的。20世紀30年代末脈沖編碼調(diào)制(pcm,pulse code modulation)原理和聲碼器(vocoder)概念被提出后,語音數(shù)字編碼便一直沿著這兩個方向發(fā)展。語音數(shù)據(jù)壓縮目的是能在盡可能低的傳輸速率上獲得高質(zhì)量的語音效果,即希望語音信號可以在帶寬較窄的信道中傳輸而語音質(zhì)量下降的不多或盡可能不下降。語音編碼系統(tǒng)早期用的是波形編碼方法,也叫波形編碼(或非參數(shù)編碼),其目的是力圖使重建的語音波形保持原語音信號的波形形狀。這種編碼器是把語音信號當成一般的波形信號來處理,而并未考慮語音信號的冗佘度。它的優(yōu)點是具有較強的適應能力,有較好的合成語音質(zhì)量,然而編碼速率高(64kbit/s),編碼效率極低。脈沖編碼調(diào)制(pcm)、自適應增量調(diào)制(adm)、自適應差分編碼(adpcm)、自適應編碼(apc)等都是屬于波形編碼(非參數(shù)編碼)。而聲碼器則是不同于波形編碼器的高效編碼方式。聲碼器又稱參數(shù)編碼(或模型編碼),它主要是對提取的語音信號特征參數(shù)進行編碼,目的主要是使重建的語音信號具有盡可能高的可懂度,而不是要求重建波形保持原語音波形的形狀。因此,可能出現(xiàn)的情況是即使重建語音的可懂度高,但其時域波形與原語音的時域波形有較大的差別。這種編碼器的優(yōu)點是可達到極低的編碼速率而語音依然可懂,編碼速率可達到8kbit/s、4.8kbit/s甚至更低。主要缺點是重建語音自然度低,韻律感差,合成語音質(zhì)量差。聲碼器的典型代表是通道聲碼器、共峰聲碼器及線性預測聲碼器等。
20世紀80年代至今,不僅聲碼器和波形編碼器得到了很大發(fā)展,并且還有一種全新的革命性編碼方法被普遍推廣,這類編碼器叫混合編碼器。這種編碼器在傳送器中對給定編碼結(jié)構(gòu)的所有可能性進行綜合,找出輸人語音的最好編碼形式,并從這些可能性中發(fā)現(xiàn)輸入語音的最優(yōu)主觀匹配,然后用數(shù)碼表示這種主觀匹配并發(fā)送到接收器。利用線性預測、vq、a-b-s、感覺加權(quán)、后濾波等技術(shù)得到的多脈沖激勵線性預測(mpelp,multi pulse enspirit lineprognosticate),規(guī)則脈沖激勵線性預測(rpelp,rule pulse enspirit line prognosticate),碼本激勵線性預測(celp,code enspirit line prognosticate) 編碼速率達到8~16kbit/s甚至更底,其話音質(zhì)量高、編碼速率低,但算法復雜。
近年來,itu-t在多媒體數(shù)字通信方面(包括電視會議等)制定了一系列國際標準(按itu的說法是建議)。
表1 itu-t多媒體會議標準(基本模式)
在現(xiàn)有的網(wǎng)路設施條仵下,h.320和h.323比較適用的標準。h.320的基本音頻模式是g.711 log-pcm(對數(shù)脈碼調(diào)制)編碼解碼器,它是一種簡單的8khz采樣頻率對數(shù)脈碼調(diào)制模式,長期以來它都是數(shù)字電話網(wǎng)絡主要的編碼方法(長途電話盡管起源于模擬電話,現(xiàn)在長途電話在數(shù)字網(wǎng)絡上傳輸)。
g.711定義為8位編碼,速率為64kbit/s,但在h.320中采樣截短為6或7比特位,因為速率相應變?yōu)?8kbit/s或56kbit/s。g.711提供了出色的長話音質(zhì)窄帶(3khz音頻帶寬)語音、不太明顯的編解碼延遲(低于1ms)以及非常低的實現(xiàn)復雜性。為了提供與普通g.711音頻電話的兼容性,所有的h.320呼叫在h.221 fas和bas信道中進行同步初始化和模式協(xié)商時開始發(fā)送和接收g.711音頻。
g.711有很多優(yōu)點,但是g.711指定了兩個不同的編碼a律和μ律,在采用g.711標準的區(qū)域,不同地方使用上述兩種不同的方法。ccitt不能達成統(tǒng)一的編碼方法。結(jié)果是h.320系統(tǒng)必須由遠端在每次呼叫開始時自動發(fā)現(xiàn)使用的編碼律,或者避免使用音頻直到h.320控制過程能用來建立另一音頻模式。而且,g.711因為它的低復雜性和與普遍電話的兼容性成為h.320的基本音頻模式,但與其他h.320音頻模式相比在使用帶寬方面它是效率低下的。如果轉(zhuǎn)到其他音頻模式下節(jié)省的數(shù)據(jù)帶寬可用來傳送更多的視頻位,將使h.320視頻質(zhì)量有很大不同,特別是在普通的2-b(128kbit/s)h.320呼叫上。
鑒于g.711語音壓縮協(xié)議本身的一些缺點,人們一直在找一種替代它的協(xié)議,現(xiàn)在已經(jīng)開始用的有g(shù).722協(xié)議和g.728協(xié)議。
g.728是目前h.320中用得較多的窄帶音頻模式。它是基于通常的8khz窄帶采樣和5個采樣(0.625ms)的音頻幀的低時延碼本激勵線性編碼(ld-celp),比特率為16kbit/s,提供很好的長話音質(zhì),總延遲為大約1.875ms。
在現(xiàn)有網(wǎng)絡條件下,需要一個窄帶音頻模式,但是又要有相當好的語音質(zhì)量。 最近建立的8kbit/s電話標準真正提高了該速率下的語音品質(zhì)并改善了復雜性,這種編碼器在某種程度上是一個突破,因此它的嚴格規(guī)范使性能達到或超過了32kbit/s的g.726 adpcm,但速率僅為8kbit/s。itu g.729 skbit/s標準在性能上不亞于g.726,其算法延時少于16ms,隨機誤碼和背景噪聲的
熱門點擊
- D/A轉(zhuǎn)換器的基本原理
- AD轉(zhuǎn)換器的選擇
- 語音信號的μ/A律壓縮
- 并行A/D轉(zhuǎn)換器AD574
- 語音信號的采集和播放
- 語音信號模數(shù)/數(shù)模轉(zhuǎn)換
- DFT的屬性
- D/A轉(zhuǎn)換器的特性與技術(shù)指標
- D/A轉(zhuǎn)換器雙極性工作
- 高速數(shù)據(jù)采集系統(tǒng)的時鐘電路設計
推薦技術(shù)資料
- DS2202型示波器試用
- 說起數(shù)字示波器,普源算是國內(nèi)的老牌子了,F(xiàn)QP8N60... [詳細]