ARM的DSP增強型擴展
發(fā)布時間:2008/9/1 0:00:00 訪問次數(shù):540
現(xiàn)在,很多新興的應用領域涌現(xiàn)了許多新的算法標準,這些算法對于處理器提出了更高的性能和控制要求。信號處理需要處理器提供高峰值性能,但這部分在整個算法中的比例有減少的趨勢。對于開發(fā)包含高性能算法的大規(guī)模應用的設計團隊來說,有很多種可供選擇的方案。市場競爭的壓力使得選擇一個對高性能有充分保障的處理器平臺來實現(xiàn)高性能的功能變得非常重要。但是選擇超出需求性能很多的處理器平臺對于系統(tǒng)成本和電源消耗也是有著很大影響的,這會直接導致產(chǎn)品缺乏競爭力。
。幔颍碓谔峁┩ㄓ玫模颍椋螅闾幚砥骷軜(gòu)的同時,為其增添了一些針對特定應用的高性能指令集,以期能夠達到軟件和硬件的一個優(yōu)化平衡。這樣,一些高度涉及信號處理的應用本來是要借助一塊專用dsp來完成的,現(xiàn)在由一個arm內(nèi)核就可以實現(xiàn)同樣的功能。比較典型的例子就是mp3音頻算法。對于mp3算法的分析表明,一些關鍵的前端步驟的處理,包括讀入比特流,霍夫曼(huffman)解碼和反量化(inverse quantization),這時,arm。颍椋螅慵軜(gòu)比普通的dsp能體現(xiàn)更佳的性能。同時,這個通用處理器還可以處理復雜的任務控制。
arm為信號處理算法專門發(fā)布了v5te的架構(gòu),在普通的arm架構(gòu)基礎上新增了有效的dsp指令。arm的擴展dsp指令集使得arm的cpu系列能夠更好的適應復雜的信號處理,同時還保留了作為高性能risc處理器所特有的低功耗特性。arm v5te的dsp擴展指令集已經(jīng)在arm946e-stm 和。幔颍恚梗叮叮澹螅簦砗停幔颍恚梗玻叮澹辏螅簦砩系玫綉谩#椋睿簦澹煲餐瑫r在他們和arm架構(gòu)兼容的xscale微處理器系列里實現(xiàn)了dsp指令集的擴展,并且主頻達到了1ghz。
。幔颍淼慕鉀Q方案在解決應用問題而增強了性能的同時,還在性能和功耗,cpu核面積的大小等方面達到了均衡。像arm9etm這樣的單核解決方案,同時滿足了任務控制和信號處理方面的需求,比傳統(tǒng)的dsp內(nèi)核加通用內(nèi)核的雙核方案,在最終的效率和開發(fā)過程方面有了很大的提升。
目標應用:
。幔颍韺iT為arm的各個平臺開發(fā)了近乎于cd音質(zhì)的音頻算法,比如mp3,包括了wma和mpeg aac標準。總的來說,有著dsp增強指令的內(nèi)核是最適合于應用在以前既需要高性能的dsp核同時又要求能夠進行有效的任務控制的場合。比如大容量存儲器,語音編碼器,語音識別合成,網(wǎng)絡應用,車控系統(tǒng),智能手機,發(fā)報機和調(diào)制解調(diào)器。
下圖列舉了dsp增強指令。包括單周期16x16和32x16的乘法指令,增加了飽和運算功能的運算指令。這些指令為開發(fā)穩(wěn)定的操作系統(tǒng)和比特級精確的算法提供了方便。前導零運算指令為算法的標準化和浮點數(shù)運算特別是對于除法運算帶來了高性能。這些dsp增強指令在armv5te中得到了很好的實現(xiàn)。
支持dsp增強指令的硬件架構(gòu)是基于現(xiàn)有的arm9tdmitmrisc核的,也是五級流水線,哈佛結(jié)構(gòu)。dsp增強指令集對于整個現(xiàn)有結(jié)構(gòu)的影響被控制到了最小,沒有增加另外的寄存器或者cpu狀態(tài),也沒有增加對寄存器使用的限制。如表一所示,arm9e架構(gòu)只增加了有限的部分: 一個快速32x16乘法單元,一個clz單元和兩個飽和運算單元。
因為d。蟆。鹪鰪姽δ懿]有對現(xiàn)有的架構(gòu)做太大的修改,所以arm9e優(yōu)于原先的arm9架構(gòu)。arm9e內(nèi)核能達到和a。颉。怼。箖(nèi)核差不多的主頻,在0.18μm工藝下能達到195mhz,并且只有1.0mm2的晶圓面積(die area),功耗預計為0.5mw/mhz。
。洌螅鹪鰪娭噶罴]有用特別的硬件邏輯來實現(xiàn)諸如modulo。幔洌洌颍澹螅螅椋睿,bit-wise。颍澹觯澹颍螅幔臁。幔洌洌颍澹螅螅椋睿绾停澹颍铮铮觯澹颍瑁澹幔
。欤铮铮穑椋睿绲闹噶睢5瑫r支持這些運算也是很有意義的,所以可以用一些已有的指令組合來實現(xiàn),盡管這會帶來一些性能上的微小的損失。
。猓椋簦鳎椋螅濉。颍澹觯澹颍螅幔臁。幔洌洌颍澹螅螅椋睿缭诳焖俑盗⑷~變換(fft)中是一個很常見的功能需求,是很多dsp算法的基礎功能,F(xiàn)有的桶位移(barrel。螅瑁椋妫簦澹颍┕δ芴峁┝藢崿F(xiàn)bit-wise。颍澹觯澹颍螅幔斓囊环N仿真方法,和用單指令實現(xiàn)相比只有微小的性能損失。例如,對于一個512個樣本的fft來說,在arm9e核上需要大概29k的時鐘周期,其中只有大概300個時鐘周期是用來仿真bit-reversed。幔洌洌颍澹螅螅椋睿绲,只占了整個fft變換的1%。
案例分
現(xiàn)在,很多新興的應用領域涌現(xiàn)了許多新的算法標準,這些算法對于處理器提出了更高的性能和控制要求。信號處理需要處理器提供高峰值性能,但這部分在整個算法中的比例有減少的趨勢。對于開發(fā)包含高性能算法的大規(guī)模應用的設計團隊來說,有很多種可供選擇的方案。市場競爭的壓力使得選擇一個對高性能有充分保障的處理器平臺來實現(xiàn)高性能的功能變得非常重要。但是選擇超出需求性能很多的處理器平臺對于系統(tǒng)成本和電源消耗也是有著很大影響的,這會直接導致產(chǎn)品缺乏競爭力。
。幔颍碓谔峁┩ㄓ玫模颍椋螅闾幚砥骷軜(gòu)的同時,為其增添了一些針對特定應用的高性能指令集,以期能夠達到軟件和硬件的一個優(yōu)化平衡。這樣,一些高度涉及信號處理的應用本來是要借助一塊專用dsp來完成的,現(xiàn)在由一個arm內(nèi)核就可以實現(xiàn)同樣的功能。比較典型的例子就是mp3音頻算法。對于mp3算法的分析表明,一些關鍵的前端步驟的處理,包括讀入比特流,霍夫曼(huffman)解碼和反量化(inverse quantization),這時,arm。颍椋螅慵軜(gòu)比普通的dsp能體現(xiàn)更佳的性能。同時,這個通用處理器還可以處理復雜的任務控制。
arm為信號處理算法專門發(fā)布了v5te的架構(gòu),在普通的arm架構(gòu)基礎上新增了有效的dsp指令。arm的擴展dsp指令集使得arm的cpu系列能夠更好的適應復雜的信號處理,同時還保留了作為高性能risc處理器所特有的低功耗特性。arm。觯担簦宓模洌螅饠U展指令集已經(jīng)在arm946e-stm 和。幔颍恚梗叮叮澹螅簦砗停幔颍恚梗玻叮澹辏螅簦砩系玫綉。intel也同時在他們和arm架構(gòu)兼容的xscale微處理器系列里實現(xiàn)了dsp指令集的擴展,并且主頻達到了1ghz。
arm的解決方案在解決應用問題而增強了性能的同時,還在性能和功耗,cpu核面積的大小等方面達到了均衡。像arm9etm這樣的單核解決方案,同時滿足了任務控制和信號處理方面的需求,比傳統(tǒng)的dsp內(nèi)核加通用內(nèi)核的雙核方案,在最終的效率和開發(fā)過程方面有了很大的提升。
目標應用:
。幔颍韺iT為arm的各個平臺開發(fā)了近乎于cd音質(zhì)的音頻算法,比如mp3,包括了wma和mpeg。幔幔銟藴省?偟膩碚f,有著dsp增強指令的內(nèi)核是最適合于應用在以前既需要高性能的dsp核同時又要求能夠進行有效的任務控制的場合。比如大容量存儲器,語音編碼器,語音識別合成,網(wǎng)絡應用,車控系統(tǒng),智能手機,發(fā)報機和調(diào)制解調(diào)器。
下圖列舉了dsp增強指令。包括單周期16x16和32x16的乘法指令,增加了飽和運算功能的運算指令。這些指令為開發(fā)穩(wěn)定的操作系統(tǒng)和比特級精確的算法提供了方便。前導零運算指令為算法的標準化和浮點數(shù)運算特別是對于除法運算帶來了高性能。這些dsp增強指令在armv5te中得到了很好的實現(xiàn)。
支持dsp增強指令的硬件架構(gòu)是基于現(xiàn)有的arm9tdmitmrisc核的,也是五級流水線,哈佛結(jié)構(gòu)。dsp增強指令集對于整個現(xiàn)有結(jié)構(gòu)的影響被控制到了最小,沒有增加另外的寄存器或者cpu狀態(tài),也沒有增加對寄存器使用的限制。如表一所示,arm9e架構(gòu)只增加了有限的部分: 一個快速32x16乘法單元,一個clz單元和兩個飽和運算單元。
因為d。蟆。鹪鰪姽δ懿]有對現(xiàn)有的架構(gòu)做太大的修改,所以arm9e優(yōu)于原先的arm9架構(gòu)。arm9e內(nèi)核能達到和a。颉。怼。箖(nèi)核差不多的主頻,在0.18μm工藝下能達到195mhz,并且只有1.0mm2的晶圓面積(die。幔颍澹幔,功耗預計為0.5mw/mhz。
。洌螅鹪鰪娭噶罴]有用特別的硬件邏輯來實現(xiàn)諸如modulo。幔洌洌颍澹螅螅椋睿纾猓椋簦鳎椋螅濉。颍澹觯澹颍螅幔臁。幔洌洌颍澹螅螅椋睿绾停澹颍铮铮觯澹颍瑁澹幔
。欤铮铮穑椋睿绲闹噶。但同時支持這些運算也是很有意義的,所以可以用一些已有的指令組合來實現(xiàn),盡管這會帶來一些性能上的微小的損失。
。猓椋簦鳎椋螅濉。颍澹觯澹颍螅幔臁。幔洌洌颍澹螅螅椋睿缭诳焖俑盗⑷~變換(fft)中是一個很常見的功能需求,是很多dsp算法的基礎功能,F(xiàn)有的桶位移(barrel shifter)功能提供了實現(xiàn)bit-wise。颍澹觯澹颍螅幔斓囊环N仿真方法,和用單指令實現(xiàn)相比只有微小的性能損失。例如,對于一個512個樣本的fft來說,在arm9e核上需要大概29k的時鐘周期,其中只有大概300個時鐘周期是用來仿真bit-reversed。幔洌洌颍澹螅螅椋睿绲,只占了整個fft變換的1%。
案例分
熱門點擊
- 基于嵌入式處理器的電力諧波多功能實時分析系統(tǒng)
- 基于ARM9芯片S3C2410異常中斷程序設
- 三星ARM9 S3C2410 的的特點及其軟
- VxWorks下實時多任務程序的實現(xiàn)
- 基于CP2200的嵌入式以太網(wǎng)接口設計
- ARM/uClinux應用程序的開發(fā)
- 基于ARM開發(fā)板的車輛檢測系統(tǒng)控制單元設計
- 425嵌入式開發(fā)平臺簡介
- 基于S3C2410的Windows CE 5
- 基于WinCE/Linux系統(tǒng)的新一代嵌入式
推薦技術資料
- DFRobot—玩的就是
- 如果說新車間的特點是“靈動”,F(xiàn)QPF12N60C那么... [詳細]