基于DM642的運動估計算法的研究與實現(xiàn)

發(fā)布時間:2008/9/23 0:00:00 訪問次數(shù):501

　　多媒體業(yè)務(wù)的飛速發(fā)展對視頻編碼技術(shù)提出了更高的要求。如何在盡可能低的碼率下獲得盡可能好的圖像質(zhì)量是一系列視頻編碼標(biāo)準(zhǔn)的共同目標(biāo)。h.264是新一代的面向低碼率視頻通信應(yīng)用的視頻圖像壓縮標(biāo)準(zhǔn)。與此前的視頻編碼標(biāo)準(zhǔn)相比較，h.264擁有極高的壓縮效率和極強的容錯性能，這使視頻編碼效率獲得大幅提高，但同時這也使運算復(fù)雜度猛增。運動估計和運動補償作為視頻壓縮編碼系統(tǒng)的核心算法，占整個系統(tǒng)運算量的60%-80%。研究運動估計算法的dsp實現(xiàn)對整個h.264系統(tǒng)的嵌入式應(yīng)用具有重要的指導(dǎo)意義。

　　tms320dm642是ti公司推出的一款面向數(shù)字多媒體應(yīng)用的專業(yè)芯片，它基于c64x內(nèi)核，擁有強大的處理性能和豐富的外圍接口。本文完成了基于h.264的運動估計算法的dsp實現(xiàn)，通過使用一系列優(yōu)化方案，很好地實現(xiàn)了對算法的實時處理。

　　2 運動估計算法

　　運動估計算法是視頻壓縮編碼的核心算法之一。高質(zhì)量的運動估計算法是高效視頻編碼的前提和基礎(chǔ)。其中塊匹配法（bma, block match algorithm）由于算法簡單和易于硬件實現(xiàn)，被廣泛應(yīng)用于各視頻編碼標(biāo)準(zhǔn)中。塊匹配法的基本思想是先將圖像劃分為許多子塊，然后對當(dāng)前幀中的每一塊根據(jù)一定的匹配準(zhǔn)則在相鄰幀中找出當(dāng)前塊的匹配塊，由此得到兩者的相對位移，即當(dāng)前塊的運動矢量。在h.264標(biāo)準(zhǔn)的搜索算法中，圖像序列的當(dāng)前幀被劃分成互不重疊16×16大小的子塊，而每個子塊又可劃分成更小的子塊，當(dāng)前子塊按一定的塊匹配準(zhǔn)則在參考幀中對應(yīng)位置的一定搜索范圍內(nèi)尋找最佳匹配塊，由此得到運動矢量和匹配誤差。運動估計的估計精度和運算復(fù)雜度取決于搜索策略和塊匹配準(zhǔn)則。這里使用h.264推薦算法umhexagons（unsymmetrical-cross multi-hexagon-grid search）作為dsp實現(xiàn)的算法參考，與fs算法比較，它在保證可靠搜索精度的前提下大幅降低搜索復(fù)雜度。同時使用絕對差和（sad, the sum of absolute difference）標(biāo)準(zhǔn)作為匹配準(zhǔn)則，它具有便于硬件實現(xiàn)的優(yōu)點。

　　3 tms320dm642 dsp硬件平臺

　　數(shù)字多媒體處理器dm642的結(jié)構(gòu)如圖3.1所示。dm642是ti公司c6000系列的一款新型高性能dsp，基于c64x內(nèi)核，擴展的高級甚長指令字（vliw, very long instruction word）體系結(jié)構(gòu)，具有64個32位通用寄存器，8個獨立計算功能單元可并行運行。主頻為600mhz，峰值計算速度達(dá)4800mips[1]。dm642采用兩級緩存結(jié)構(gòu)，第一級包括相互獨立的l1p（16k字節(jié)）和l1d（16k字節(jié)），只能作為高速緩存使用。第二級l2（256k字節(jié)）是一個統(tǒng)一的程序/數(shù)據(jù)空間，可以整體作為sram映射到存儲空間，也可以整體作為第二級cache，或是二者按比例的一種組合來使用。dm642具有64個獨立通道的增強型直接存儲器訪問（edma, enhanced direct memory access）控制器，負(fù)責(zé)片內(nèi)l2與外設(shè)以及外設(shè)之間數(shù)據(jù)高速傳輸。www.51kaifa.com

　　dm642具有豐富的外圍設(shè)備接口：三個可配置的雙通道視頻端口video port；64bit的外部內(nèi)存接口emif；10/100m以太網(wǎng)mac；66mhz 32bit的pci接口，符合pci2.2標(biāo)準(zhǔn)。高性能dm642是目前構(gòu)建數(shù)字多媒體處理應(yīng)用的一個理想平臺。

　　圖3.1 dm642結(jié)構(gòu)示意圖

　　4 運動估計算法的dsp dm642實現(xiàn)與優(yōu)化

　　4.1 算法實現(xiàn)流程

　　與基于pc的算法實現(xiàn)相比，基于dm642的算法實現(xiàn)對實時性提出了更高的要求。這就要求由視頻采集、處理和顯示組成的系統(tǒng)能夠高效工作�；赿m642的視頻處理系統(tǒng)流程如圖4.1所示。

　　圖4.1 dm642視頻處理流程

　　運動估計算法實現(xiàn)流程如圖4.2所示：

　　圖4.2 基于dm642運動估計算法實現(xiàn)流程

　　4.2 存儲器系統(tǒng)優(yōu)化

　　4.2.1 cache優(yōu)化策略[2]

　　cache優(yōu)化主要是要合理配置l2緩存中cache和sram的大小。cache和sram的大小應(yīng)根據(jù)具體應(yīng)用要求作相應(yīng)的配置。通常，cache容量越大越好，但是由于它是由cpu管理，而不能由程序員手動控制，這就降低了應(yīng)用的靈活性。對于視頻處理算法，把一些頻繁訪問的數(shù)據(jù)放入sram是很有必要的，這有利于系統(tǒng)性能的提升。實驗表明，在本系統(tǒng)中將cache和sram各配置成128kbytes，能夠獲得最佳效果。

　　4.2.2 存儲器空間分配

　　對于嵌入式系統(tǒng)來說，存儲器大小有限，是系統(tǒng)寶貴的資源，對其應(yīng)用需要作細(xì)致額考慮和周密的管理。由于dsp內(nèi)核對不同存儲空間的數(shù)據(jù)訪問速度差異很大，運動估計算法涉及大量的數(shù)據(jù)存儲和讀取，所以存儲器的