基于ARM的除法運算優(yōu)化策略

發(fā)布時間:2007/8/30 0:00:00 訪問次數(shù):583

來源：單片機及嵌入式系統(tǒng)應(yīng)用作者：中國科學(xué)院葉凱楊文淑包啟亮

與傳統(tǒng)的4／8位單片機相比，ARM的性能和處理能力是遙遙領(lǐng)先的。但與之相應(yīng)，ARM的系統(tǒng)設(shè)計復(fù)雜度和難度，較之傳統(tǒng)的設(shè)計方法也大大提升了，同時也大大拓展了針對ARM芯片特性進行優(yōu)化的空間，例如針對指令流水線的優(yōu)化、針對寄存器分配進行的優(yōu)化等。

ARM在硬件上不支持除法指令，編譯器是通過調(diào)用C庫函數(shù)來實現(xiàn)除法運算的，有許多不同類型的除法程序來適應(yīng)不同的除數(shù)和被除數(shù)。但直接利用C庫函數(shù)中的標(biāo)準(zhǔn)整數(shù)除法程序，根據(jù)執(zhí)行情況和輸入操作數(shù)的范圍，要花費20～100個周期，消耗較多的軟件運行時間。在實時嵌入式應(yīng)用中，對時間參數(shù)較為敏感，故可以考慮如何優(yōu)化避免除法消耗過多的CPU運行時間。

除法和模運算(／和％)執(zhí)行起來比較慢，所以應(yīng)盡量避免使用。但是，除數(shù)是常數(shù)的除法運算和用同一個除數(shù)的重復(fù)除法，執(zhí)行效率會比較高。在ARM中，可以利用單條MUL指令實現(xiàn)乘法操作。本文將闡述如何用乘法運算代替除法運算，以及如何使除法的次數(shù)最少化。

1 避免除法運算

在非嵌入式領(lǐng)域，因為CPU運算速度快、存儲器容量大，除法操作通常都是不加考慮直接使用的。但在嵌入式領(lǐng)域，首先需要考慮的是這些除法操作是否是必須的。以對環(huán)形緩沖區(qū)操作為例，經(jīng)常要用到除法，其實完全可以避免這些除法運算。

假定有一個buffer_size大小的環(huán)形緩沖區(qū)，如圖1所示，0ffset指定目前所在的位置。通過increment字節(jié)來增加offset的值，一般是這樣寫的：

0ffset=(Offset+increment)％buffer_size；

效率更高的寫法是：

offset+=increment；

if(offset>=buffer_size){

offset一=buffer_size；

}

第一種寫法要花費50個周期，而第二種因為沒有除法運算，只須花費3個周期。這里假定increment<buff_er_size，在實際應(yīng)用中這點應(yīng)該是保證的。

如果不能避免除法運算，那么就應(yīng)盡量使除數(shù)和被除數(shù)是無符號的整數(shù)。有符號的除法程序執(zhí)行起來更加慢，因為它們先要取得除數(shù)和被除數(shù)的絕對值，再調(diào)用無符號除法運算，最后再確定結(jié)果的符號。

2 充分利用商和余數(shù)

許多C語言庫中的除法函數(shù)返回商和余數(shù)。換句話說，每一個除法運算，余數(shù)是可以無償?shù)玫降模粗嗳�。例如，要在屏幕緩沖區(qū)找到偏移量
為offset的屏幕位置(x，y)，可以這樣寫：

typeclef struct{

int x；

int y；

}point；

point getxy_v1(unsigned int offset，unslgned int bytes_per_line){

point p；

p．y=offset／lt)ytes_per_line；

p．x=offset - p．y* bytcs_per_line；

return p；

}

這里，似乎對p．x使用減法和乘法，少了一次除法運算；但是，實際上使用模運算或者取余操作效率更高，對

getxy_vl改進如下：

point getxy_v2(unsigned int offset，unsigned int bytes_per_line){

point P；

P．x=offset％bytes_per_1ine；

P．y=offset／bytes_per_line；

return P;

從下面編譯器的輸出結(jié)果可以看到，只有一次除法調(diào)用。實際上，這個程序要比前面的getxy_vl少4條指令(注意，并不是對所有的編譯器和C都有這樣的結(jié)果)。getxy_v2

STMFD r13!，{r4，r14}；保存r4，lr人堆棧

MOV r4，rO；賦值后r4保存的為點P基址

MOV rO，r2；rO=bytes_per_line

BLrt_udiv；調(diào)用無符號除法例程

(r0．；r1)=(rl／rO，rl％rO)

STRr0，[r4，#4] ；P．y=offset／bytes_per_line

STR rl，[r4，#o] ；P．x=offset%bytes_per_line

LDMFD r13!，(r4，pc)；恢復(fù)上下文，返回

3 把除法轉(zhuǎn)換為乘法

在程序中，同一個除數(shù)的除法經(jīng)常會出現(xiàn)很多次。在前面的例子中，bytes_per_line的值在整個程序中都是固定不變的。又如3到2笛卡爾坐標(biāo)變換，其中就使用了同一個除數(shù)兩次：

(x,Y，x)→(x／z，y／z)

這種情況下，使用cache指令中的值1／z，并使用1／z的乘法來代替除法運算，效率會更高。另外，要盡可能使用int類型的運算，避免使用浮點運算。

下面將更加偏重于從數(shù)學(xué)和理論的角度分析，把重復(fù)除法轉(zhuǎn)換成乘法運算。

下面來區(qū)分精確數(shù)學(xué)意義上的除法和整型除法運算：

◇n／d，即整數(shù)n被分成整數(shù)d份，結(jié)果趨向于O(與C語言相同)；