大容量MP3音頻數(shù)字水印算法研究
發(fā)布時間:2008/6/5 0:00:00 訪問次數(shù):799
摘 要 本文針對mp3音頻的壓縮原理和特點,提出了基于修改mdct量化后系數(shù)的大容量音頻盲水印算法。利用心理聲學模型介入水印嵌入過程等方法提高水印的隱形性,使用哈希函數(shù)確保水印信息完整性,通過與mp3編/解碼過程相結合,實現(xiàn)了水印信息實時提取。通過實驗分析驗證了水印的隱形性、水印容量、實時性等方面的特點。
關鍵詞 音頻數(shù)字水印,mdct,水印容量,哈希函數(shù)。
0 引言
音頻資源在互連網絡、電子商務中扮演著重要的角色,隨著internet網絡數(shù)量和帶寬不斷增長,在線音樂日益流行,對網絡上音頻資源版權的保護亦變的非常重要。數(shù)字水印技術作為版權保護的一種手段,近來得到廣泛的研究和探討。數(shù)字水印技術是信息隱藏技術的衍生和拓展,其基本特點是魯棒性、隱蔽性和完整性等。人類聽覺系統(tǒng)(has)比人類視覺系統(tǒng)(hvs)具有更高的敏感性,在音頻信號中隱藏水印信息,對水印的隱蔽性有更高的要求,水印的隱藏也相應更加困難。1996年文獻[1]提出了音頻數(shù)字水印技術,闡述了音頻數(shù)字水印的基本特點,提出使用pn序列作為水印發(fā)生器,并根據(jù)人類聽覺系統(tǒng)(has)的特點將pn序列嵌入到原始音頻信號中。文獻[2]在2001年提出了使用擴頻技術和has掩蔽效應將水印嵌入到非壓縮的原始音頻時域信號中的盲水印算法,并指出其算法具有抗mp3壓縮的能力。文獻[3]的作者提出了基于時域空間的魯棒音頻數(shù)字水印算法,作者通過將原始信號進行分段處理,計算每段的能量,利用調節(jié)各段之間能量關系的方式嵌入和提取水印信息,論證了算法的魯棒性。[1][2][3]中描述的算法在水印的嵌入和提取過程中要求較大的計算量,不太能夠滿足網絡上音頻資源的實際需求。[4]闡述了音頻數(shù)字水印的基本特點,分析總結了當前一些音頻數(shù)字水印算法,提出利用mp3編/解碼過程進行水印嵌入和提取的算法。在文獻[4]中作者通過分析mdct系數(shù),對mdct系數(shù)進行修改,從而實現(xiàn)水印嵌入和提取操作。[4]的算法不能完全有效地檢測嵌入的水印信息,水印嵌入比例小。文獻[5]的作者提出利用snr控制音頻水印嵌入放大因子的自適應數(shù)字水印算法,在文中,作者通過使用小波變換技術、混沌序列生成技術等方法,實現(xiàn)了在音頻數(shù)據(jù)中嵌入圖片信息;在水印提取過程中,通過利用snr改善提取的水印數(shù)據(jù)。文章中沒有具體針對mp3音頻資源進行水印嵌入,且水印信息的嵌入量不大,水印檢測效率不高。
目前提出的音頻數(shù)字水印算法,不能很好的滿足嵌入容量、實時性等需求,同時,水印的隱形性不高,水印添加量擴大時音質下降嚴重,故上述文獻中提出的水印算法,難以應用到實際系統(tǒng)中。本文提出的算法主要針對以上提出的三個問題。即大容量、實時性、音質與水印容量的制衡關系。我們將水印信息分成兩個部分:水印信號和水印的hash值。根據(jù)二者各自的特性添加到不同的頻段的mdct非均勻量化系數(shù)上,其中水印hash值作為水印完整性檢查的依據(jù),用于確保水印信息不曾遭受篡改。水印嵌入/提取算法根據(jù)心理聲學模型的結果計算并修正mdct系數(shù)中非均勻量化值,可以在mp3編/解碼過程中實時操作。算法中對添加水印后的信號計算最大噪聲值,再與心理模型得出的可容忍最大噪聲量進行比較,若超出范圍則改進量化因子后再重新添加水印,直到滿足要求。這個過程將水印信息引入的噪聲限制在合理的范圍之內,同時保障了嵌入水印的信息量。水印添加位置的選擇遵循在失真度和水印信息量上制衡的原則,選取了mdct系數(shù)的中頻部分,引入水印嵌入密度控制因子α,以便人為干預水印信息在mp3流中嵌入量和水印信息添加得分散度。實驗表明,算法具有容量大、實時性、隱蔽性強等特點。
1 mp3音頻流編碼過程
mp3的編碼以幀為單位進行的。一幀一般有576個數(shù)據(jù),pcm碼首先通過濾波器組,被分成等寬的32個頻率線。每根頻線再通過mdct變換進一步被細分成18根頻率線,得到32×18=576個系數(shù)。 mdct公式如下:
(式 1-1)
mdct變換具有某些與dct變換不同的特性[6]:
⑴ mdct不是正交變換;
⑵ 當信號出現(xiàn)本地對稱的時候mdct系數(shù)全為零;即說明時域能量有不等于頻域能量的時候;
⑶ 時域能量只有在出現(xiàn)本地對稱的情況下才不等于頻域能量;
⑷ mdct沒有dct直流分量和交流分量的概念。
從特性4來分析,對mdct系數(shù)的修改可以不用避開類似dct系數(shù)的直流分量部分。但根據(jù)特性2,3,對mdct系數(shù)的修改,最好避開系數(shù)0值部分。
每個粒度的信號在經過mdct變換后就進入量化和位分配階段,通過兩個嵌套循環(huán)使得mp3數(shù)據(jù)位分配最少即壓縮比最大與量化噪聲在smr控制的范圍內兩個目標之間取得平衡。編碼器會根據(jù)心理聽覺模型的計算結果將567個mdct系數(shù)分成多個sfb(比例因子帶),由于sfb很接近人耳聽覺特性的臨界帶,可以近似地看作臨界
摘 要 本文針對mp3音頻的壓縮原理和特點,提出了基于修改mdct量化后系數(shù)的大容量音頻盲水印算法。利用心理聲學模型介入水印嵌入過程等方法提高水印的隱形性,使用哈希函數(shù)確保水印信息完整性,通過與mp3編/解碼過程相結合,實現(xiàn)了水印信息實時提取。通過實驗分析驗證了水印的隱形性、水印容量、實時性等方面的特點。
關鍵詞 音頻數(shù)字水印,mdct,水印容量,哈希函數(shù)。
0 引言
音頻資源在互連網絡、電子商務中扮演著重要的角色,隨著internet網絡數(shù)量和帶寬不斷增長,在線音樂日益流行,對網絡上音頻資源版權的保護亦變的非常重要。數(shù)字水印技術作為版權保護的一種手段,近來得到廣泛的研究和探討。數(shù)字水印技術是信息隱藏技術的衍生和拓展,其基本特點是魯棒性、隱蔽性和完整性等。人類聽覺系統(tǒng)(has)比人類視覺系統(tǒng)(hvs)具有更高的敏感性,在音頻信號中隱藏水印信息,對水印的隱蔽性有更高的要求,水印的隱藏也相應更加困難。1996年文獻[1]提出了音頻數(shù)字水印技術,闡述了音頻數(shù)字水印的基本特點,提出使用pn序列作為水印發(fā)生器,并根據(jù)人類聽覺系統(tǒng)(has)的特點將pn序列嵌入到原始音頻信號中。文獻[2]在2001年提出了使用擴頻技術和has掩蔽效應將水印嵌入到非壓縮的原始音頻時域信號中的盲水印算法,并指出其算法具有抗mp3壓縮的能力。文獻[3]的作者提出了基于時域空間的魯棒音頻數(shù)字水印算法,作者通過將原始信號進行分段處理,計算每段的能量,利用調節(jié)各段之間能量關系的方式嵌入和提取水印信息,論證了算法的魯棒性。[1][2][3]中描述的算法在水印的嵌入和提取過程中要求較大的計算量,不太能夠滿足網絡上音頻資源的實際需求。[4]闡述了音頻數(shù)字水印的基本特點,分析總結了當前一些音頻數(shù)字水印算法,提出利用mp3編/解碼過程進行水印嵌入和提取的算法。在文獻[4]中作者通過分析mdct系數(shù),對mdct系數(shù)進行修改,從而實現(xiàn)水印嵌入和提取操作。[4]的算法不能完全有效地檢測嵌入的水印信息,水印嵌入比例小。文獻[5]的作者提出利用snr控制音頻水印嵌入放大因子的自適應數(shù)字水印算法,在文中,作者通過使用小波變換技術、混沌序列生成技術等方法,實現(xiàn)了在音頻數(shù)據(jù)中嵌入圖片信息;在水印提取過程中,通過利用snr改善提取的水印數(shù)據(jù)。文章中沒有具體針對mp3音頻資源進行水印嵌入,且水印信息的嵌入量不大,水印檢測效率不高。
目前提出的音頻數(shù)字水印算法,不能很好的滿足嵌入容量、實時性等需求,同時,水印的隱形性不高,水印添加量擴大時音質下降嚴重,故上述文獻中提出的水印算法,難以應用到實際系統(tǒng)中。本文提出的算法主要針對以上提出的三個問題。即大容量、實時性、音質與水印容量的制衡關系。我們將水印信息分成兩個部分:水印信號和水印的hash值。根據(jù)二者各自的特性添加到不同的頻段的mdct非均勻量化系數(shù)上,其中水印hash值作為水印完整性檢查的依據(jù),用于確保水印信息不曾遭受篡改。水印嵌入/提取算法根據(jù)心理聲學模型的結果計算并修正mdct系數(shù)中非均勻量化值,可以在mp3編/解碼過程中實時操作。算法中對添加水印后的信號計算最大噪聲值,再與心理模型得出的可容忍最大噪聲量進行比較,若超出范圍則改進量化因子后再重新添加水印,直到滿足要求。這個過程將水印信息引入的噪聲限制在合理的范圍之內,同時保障了嵌入水印的信息量。水印添加位置的選擇遵循在失真度和水印信息量上制衡的原則,選取了mdct系數(shù)的中頻部分,引入水印嵌入密度控制因子α,以便人為干預水印信息在mp3流中嵌入量和水印信息添加得分散度。實驗表明,算法具有容量大、實時性、隱蔽性強等特點。
1 mp3音頻流編碼過程
mp3的編碼以幀為單位進行的。一幀一般有576個數(shù)據(jù),pcm碼首先通過濾波器組,被分成等寬的32個頻率線。每根頻線再通過mdct變換進一步被細分成18根頻率線,得到32×18=576個系數(shù)。 mdct公式如下:
(式 1-1)
mdct變換具有某些與dct變換不同的特性[6]:
⑴ mdct不是正交變換;
⑵ 當信號出現(xiàn)本地對稱的時候mdct系數(shù)全為零;即說明時域能量有不等于頻域能量的時候;
⑶ 時域能量只有在出現(xiàn)本地對稱的情況下才不等于頻域能量;
⑷ mdct沒有dct直流分量和交流分量的概念。
從特性4來分析,對mdct系數(shù)的修改可以不用避開類似dct系數(shù)的直流分量部分。但根據(jù)特性2,3,對mdct系數(shù)的修改,最好避開系數(shù)0值部分。
每個粒度的信號在經過mdct變換后就進入量化和位分配階段,通過兩個嵌套循環(huán)使得mp3數(shù)據(jù)位分配最少即壓縮比最大與量化噪聲在smr控制的范圍內兩個目標之間取得平衡。編碼器會根據(jù)心理聽覺模型的計算結果將567個mdct系數(shù)分成多個sfb(比例因子帶),由于sfb很接近人耳聽覺特性的臨界帶,可以近似地看作臨界