浓毛老太交欧美老妇热爱乱,蜜臀性色av免费,妺妺窝人体色www看美女,久久久久久久久久久大尺度免费视频,麻豆人妻无码性色av专区

位置:51電子網(wǎng) » 技術(shù)資料 » 其它綜合

基于ARM的除法運算優(yōu)化策略

發(fā)布時間:2007/8/30 0:00:00 訪問次數(shù):583

來源:單片機及嵌入式系統(tǒng)應(yīng)用  作者:中國科學(xué)院 葉凱 楊文淑 包啟亮


與傳統(tǒng)的4/8位單片機相比,ARM的性能和處理能力是遙遙領(lǐng)先的。但與之相應(yīng),ARM的系統(tǒng)設(shè)計復(fù)雜度和難度,較之傳統(tǒng)的設(shè)計方法也大大提升了,同時也大大拓展了針對ARM芯片特性進行優(yōu)化的空間,例如針對指令流水線的優(yōu)化、針對寄存器分配進行的優(yōu)化等。


ARM在硬件上不支持除法指令,編譯器是通過調(diào)用C庫函數(shù)來實現(xiàn)除法運算的,有許多不同類型的除法程序來適應(yīng)不同的除數(shù)和被除數(shù)。但直接利用C庫函數(shù)中的標(biāo)準(zhǔn)整數(shù)除法程序,根據(jù)執(zhí)行情況和輸入操作數(shù)的范圍,要花費20~100個周期,消耗較多的軟件運行時間。在實時嵌入式應(yīng)用中,對時間參數(shù)較為敏感,故可以考慮如何優(yōu)化避免除法消耗過多的CPU運行時間。


除法和模運算(/和%)執(zhí)行起來比較慢,所以應(yīng)盡量避免使用。但是,除數(shù)是常數(shù)的除法運算和用同一個除數(shù)的重復(fù)除法,執(zhí)行效率會比較高。在ARM中,可以利用單條MUL指令實現(xiàn)乘法操作。本文將闡述如何用乘法運算代替除法運算,以及如何使除法的次數(shù)最少化。



1  避免除法運算


在非嵌入式領(lǐng)域,因為CPU運算速度快、存儲器容量大,除法操作通常都是不加考慮直接使用的。但在嵌入式領(lǐng)域,首先需要考慮的是這些除法操作是否是必須的。以對環(huán)形緩沖區(qū)操作為例,經(jīng)常要用到除法,其實完全可以避免這些除法運算。


假定有一個buffer_size大小的環(huán)形緩沖區(qū),如圖1所示,0ffset指定目前所在的位置。通過increment字節(jié)來增加offset的值,一般是這樣寫的:


0ffset=(Offset+increment)%buffer_size;


效率更高的寫法是:


offset+=increment;


if(offset>=buffer_size){


offset一=buffer_size;


}


第一種寫法要花費50個周期,而第二種因為沒有除法運算,只須花費3個周期。這里假定increment<buff_er_size,在實際應(yīng)用中這點應(yīng)該是保證的。


如果不能避免除法運算,那么就應(yīng)盡量使除數(shù)和被除數(shù)是無符號的整數(shù)。有符號的除法程序執(zhí)行起來更加慢,因為它們先要取得除數(shù)和被除數(shù)的絕對值,再調(diào)用無符號除法運算,最后再確定結(jié)果的符號。


2  充分利用商和余數(shù)


許多C語言庫中的除法函數(shù)返回商和余數(shù)。換句話說,每一個除法運算,余數(shù)是可以無償?shù)玫降模粗嗳。例如,要在屏幕緩沖區(qū)找到偏移量
為offset的屏幕位置(x,y),可以這樣寫:


typeclef struct{


int  x;


int y;


}point;


point getxy_v1(unsigned int offset,unslgned int bytes_per_line){


point p;


p.y=offset/lt)ytes_per_line;


p.x=offset -   p.y*  bytcs_per_line;


return p;


}


這里,似乎對p.x使用減法和乘法,少了一次除法運算;但是,實際上使用模運算或者取余操作效率更高,對


getxy_vl改進如下:


point getxy_v2(unsigned int offset,unsigned int bytes_per_line){


point P;


P.x=offset%bytes_per_1ine;


P.y=offset/bytes_per_line;


return P;


從下面編譯器的輸出結(jié)果可以看到,只有一次除法調(diào)用。實際上,這個程序要比前面的getxy_vl少4條指令(注意,并不是對所有的編譯器和C都有這樣的結(jié)果)。getxy_v2


  STMFD r13!,{r4,r14};保存r4,lr人堆棧


  MOV  r4,rO;賦值后r4保存的為點P基址


  MOV  rO,r2;rO=bytes_per_line


  BLrt_udiv;調(diào)用無符號除法例程


(r0.;r1)=(rl/rO,rl%rO)


STRr0,[r4,#4]  ;P.y=offset/bytes_per_line


STR  rl,[r4,#o]  ;P.x=offset%bytes_per_line


LDMFD r13!,(r4,pc);恢復(fù)上下文,返回


3  把除法轉(zhuǎn)換為乘法


在程序中,同一個除數(shù)的除法經(jīng)常會出現(xiàn)很多次。在前面的例子中,bytes_per_line的值在整個程序中都是固定不變的。又如3到2笛卡爾坐標(biāo)變換,其中就使用了同一個除數(shù)兩次:


(x,Y,x)→(x/z,y/z)


這種情況下,使用cache指令中的值1/z,并使用1/z的乘法來代替除法運算,效率會更高。另外,要盡可能使用int類型的運算,避免使用浮點運算。


下面將更加偏重于從數(shù)學(xué)和理論的角度分析,把重復(fù)除法轉(zhuǎn)換成乘法運算。


下面來區(qū)分精確數(shù)學(xué)意義上的除法和整型除法運算:


◇n/d,即整數(shù)n被分成整數(shù)d份,結(jié)果趨向于O(與C語言相同);

來源:單片機及嵌入式系統(tǒng)應(yīng)用  作者:中國科學(xué)院 葉凱 楊文淑 包啟亮


與傳統(tǒng)的4/8位單片機相比,ARM的性能和處理能力是遙遙領(lǐng)先的。但與之相應(yīng),ARM的系統(tǒng)設(shè)計復(fù)雜度和難度,較之傳統(tǒng)的設(shè)計方法也大大提升了,同時也大大拓展了針對ARM芯片特性進行優(yōu)化的空間,例如針對指令流水線的優(yōu)化、針對寄存器分配進行的優(yōu)化等。


ARM在硬件上不支持除法指令,編譯器是通過調(diào)用C庫函數(shù)來實現(xiàn)除法運算的,有許多不同類型的除法程序來適應(yīng)不同的除數(shù)和被除數(shù)。但直接利用C庫函數(shù)中的標(biāo)準(zhǔn)整數(shù)除法程序,根據(jù)執(zhí)行情況和輸入操作數(shù)的范圍,要花費20~100個周期,消耗較多的軟件運行時間。在實時嵌入式應(yīng)用中,對時間參數(shù)較為敏感,故可以考慮如何優(yōu)化避免除法消耗過多的CPU運行時間。


除法和模運算(/和%)執(zhí)行起來比較慢,所以應(yīng)盡量避免使用。但是,除數(shù)是常數(shù)的除法運算和用同一個除數(shù)的重復(fù)除法,執(zhí)行效率會比較高。在ARM中,可以利用單條MUL指令實現(xiàn)乘法操作。本文將闡述如何用乘法運算代替除法運算,以及如何使除法的次數(shù)最少化。



1  避免除法運算


在非嵌入式領(lǐng)域,因為CPU運算速度快、存儲器容量大,除法操作通常都是不加考慮直接使用的。但在嵌入式領(lǐng)域,首先需要考慮的是這些除法操作是否是必須的。以對環(huán)形緩沖區(qū)操作為例,經(jīng)常要用到除法,其實完全可以避免這些除法運算。


假定有一個buffer_size大小的環(huán)形緩沖區(qū),如圖1所示,0ffset指定目前所在的位置。通過increment字節(jié)來增加offset的值,一般是這樣寫的:


0ffset=(Offset+increment)%buffer_size;


效率更高的寫法是:


offset+=increment;


if(offset>=buffer_size){


offset一=buffer_size;


}


第一種寫法要花費50個周期,而第二種因為沒有除法運算,只須花費3個周期。這里假定increment<buff_er_size,在實際應(yīng)用中這點應(yīng)該是保證的。


如果不能避免除法運算,那么就應(yīng)盡量使除數(shù)和被除數(shù)是無符號的整數(shù)。有符號的除法程序執(zhí)行起來更加慢,因為它們先要取得除數(shù)和被除數(shù)的絕對值,再調(diào)用無符號除法運算,最后再確定結(jié)果的符號。


2  充分利用商和余數(shù)


許多C語言庫中的除法函數(shù)返回商和余數(shù)。換句話說,每一個除法運算,余數(shù)是可以無償?shù)玫降,反之亦然。例如,要在屏幕緩沖區(qū)找到偏移量
為offset的屏幕位置(x,y),可以這樣寫:


typeclef struct{


int  x;


int y;


}point;


point getxy_v1(unsigned int offset,unslgned int bytes_per_line){


point p;


p.y=offset/lt)ytes_per_line;


p.x=offset -   p.y*  bytcs_per_line;


return p;


}


這里,似乎對p.x使用減法和乘法,少了一次除法運算;但是,實際上使用模運算或者取余操作效率更高,對


getxy_vl改進如下:


point getxy_v2(unsigned int offset,unsigned int bytes_per_line){


point P;


P.x=offset%bytes_per_1ine;


P.y=offset/bytes_per_line;


return P;


從下面編譯器的輸出結(jié)果可以看到,只有一次除法調(diào)用。實際上,這個程序要比前面的getxy_vl少4條指令(注意,并不是對所有的編譯器和C都有這樣的結(jié)果)。getxy_v2


  STMFD r13!,{r4,r14};保存r4,lr人堆棧


  MOV  r4,rO;賦值后r4保存的為點P基址


  MOV  rO,r2;rO=bytes_per_line


  BLrt_udiv;調(diào)用無符號除法例程


(r0.;r1)=(rl/rO,rl%rO)


STRr0,[r4,#4]  ;P.y=offset/bytes_per_line


STR  rl,[r4,#o]  ;P.x=offset%bytes_per_line


LDMFD r13!,(r4,pc);恢復(fù)上下文,返回


3  把除法轉(zhuǎn)換為乘法


在程序中,同一個除數(shù)的除法經(jīng)常會出現(xiàn)很多次。在前面的例子中,bytes_per_line的值在整個程序中都是固定不變的。又如3到2笛卡爾坐標(biāo)變換,其中就使用了同一個除數(shù)兩次:


(x,Y,x)→(x/z,y/z)


這種情況下,使用cache指令中的值1/z,并使用1/z的乘法來代替除法運算,效率會更高。另外,要盡可能使用int類型的運算,避免使用浮點運算。


下面將更加偏重于從數(shù)學(xué)和理論的角度分析,把重復(fù)除法轉(zhuǎn)換成乘法運算。


下面來區(qū)分精確數(shù)學(xué)意義上的除法和整型除法運算:


◇n/d,即整數(shù)n被分成整數(shù)d份,結(jié)果趨向于O(與C語言相同);

相關(guān)IC型號
版權(quán)所有:51dzw.COM
深圳服務(wù)熱線:13692101218  13751165337
粵ICP備09112631號-6(miitbeian.gov.cn)
公網(wǎng)安備44030402000607
深圳市碧威特網(wǎng)絡(luò)技術(shù)有限公司
付款方式


 復(fù)制成功!