资料介绍
14.9 函数调用
函数设计的基本原则是使其函数体尽量的小。这样编译器可以对函数做更多的优化。
14.9.1 减少函数调用开销
ARM上的函数调用开销比非RISC体系结构上的调用开销小:
· 调用返回指令“BL”或“MOV pc,lr”一般只需要6个指令周期(ARM7上)。
· 在函数的入口和出口使用多寄存器加载/存储指令LDM和STM(Thumb指令使用PUSH和POP)提高函数体的执行效率。
ARM体系结构过程调用标准AAPCS定义了如何通过寄存器传递参数和返回值。函数中的前4个整型参数是通过ARM的前4个寄存器r0、r1、r2和r3来传递的。传递参数可以是与整型兼容的数据类型,如字符类型char、半字类型short等。
注意如果是双字类型,如long long型,只能通过寄存器传递两个参数。
不能通过寄存器传递的参数,通过函数堆栈来传递。这样不论是函数的调用者还是被调用者都必须通过访问堆栈来访问参数,使程序的执行效率下降。
下面的例子显示了函数调用是传递4个参数和多于4个参数的区别。
传递4个参数的函数调用源文件如下。
int func1(int a, int b, int c, int d)
{
return a+b+c+d;
}
int caller1(void)
{
return func1(1,2,3,4);
}
编译的结果如下。
func1
ADD r0,r0,r1
ADD r0,r0,r2
ADD r0,r0,r3
MOV pc,lr
caller1
MOV r3,#4
MOV r2,#3
MOV r1,#2
MOV r0,#1
B func1
如果程序需要传递6个参数,变为如下形式。
int func2(int a, int b, int c, int d,int e,int f)
{
return a+b+c+d+e+f;
}
int caller2(void)
{
return func1(1,2,3,4,5,6);
}
则编译后的汇编文件如下。
func2
STR lr, [sp,#-4]!
ADD r0,r0,r1
ADD r0,r0,r2
ADD r0,r0,r3
LDMIB sp,{r12,r14}
ADD r0,r0,r12
ADD r0,r0,r14
LDR pc,{sp},#4
caller2
STMFD sp!,{r2,r3,lr}
MOV r3,#6
MOV r2,#5
STMIA sp,{r2,r3}
MOV r3,#4
MOV r2,#3
MOV r1,#2
MOV r0,#1
BL func2
LDMFD sp!,{r2,r3,pc}
综上所述,为了在程序中高效的调用函数,最好遵循以下规则。
· 尽量限制函数的参数,不要超过4个,这样函数调用的效率会更高。
· 当传递的参数超过4个时,要将多个相关参数组织在一个结构体中,用传递结构体指针来代替多个参数。
· 避免将传递的参数定义为long long型,因为传递一个long long型的数据将会占用两个32位寄存器。
· 函数中存在浮点运算时,避免使用double型参数。
14.9.2 使用__value_in_regs返回结构体
编译选项__value_in_regs指示编译器在整数寄存器中返回4个整数字的结构或者在浮点寄存器中返回4个浮点型或双精度型值,而不使用存储器。
下面的例子显示了__value_in_regs选项的用法。
typedef struct { int hi; uint lo; } int64; // 注意该结构中,高位为有符号整数,低位为无符号整数
__value_in_regs int64 add64(int64 x, int64 y)
{ int64 res;
res.lo = x.lo + y.lo;
res.hi = x.hi + y.hi;
if (res.lo 《 y.lo) res.hi++; // carry from low word
return res;
}
void test(void)
{ int64 a, b, c, sum;
a.hi = 0x00000000; a.lo = 0xF0000000;
b.hi = 0x00000001; b.lo = 0x10000001;
sum = add64(a, b);
c.hi = 0x00000002; c.lo = 0xFFFFFFFF;
sum = add64(sum, c);
}
编译后的结果如下所示。
add64
ADDS a2,a2,a4
ADC a1,a3,a1
MOV pc,lr
test
STMDB sp!,{lr}
MOV a1,#0
MOV a2,#&f0000000
MOV a3,#1
MOV a4,#&10000001
BL add64
MOV a3,#2
MVN a4,#0
LDMIA sp!,{lr}
B add64
当使用__value_in_regs定义结构体时,编译的代码大小为52字节,如果不使用__value_in_regs选项,则编译出的结果为160字节(本书中没有列出未使用__value_in_regs时的编译结果,读者有兴趣可以自己上机试验)。
14.9.3 叶子函数
所谓叶子函数(leaf function)就是在其函数体内不存在对其他函数调用,它也常被称为终级函数。因为叶子函数不需要调用其他函数,所有没有保存/恢复寄存器的操作,因此执行效率比一般函数要高。
当函数中必须对一些寄存器进行保存时,可以使用高效率的多寄存器存储指令STM,对需要保存的寄存器内存一次性存储。
正是由于叶子函数执行的高效性,所以在编程时,尽量将子程序编写为叶子函数,这样即使程序中多次调用也不会影响代码性能。
为了高效的调用函数,可以遵循下面函数调用原则。
· 避免在被频繁调用的函数中调用其他函数,以保证被频繁调用的函数被编译器编译为叶子函数。
· 把比较小的被调用函数和调用函数放在同一个源文件中,并且要先定义后调用,编译器就可以优化函数调用或内联较小的函数。
· 对性能影响较大的重要函数可使用关键字_inline进行内联。
14.9.4 嵌套优化
注意嵌套优化(Tail-Call optimization)只适用于armcc。编译时如果使用-g或-debug选项,编译器自动关闭该功能。
一个函数如果在其结束时调用了另一个函数,则编译器使用B指令调转到被调用函数,而非BL指令。这样就避免了一级不必要的函数返回。图14.3显示了嵌套优化的调用过程。
图14.3 嵌套优化函数调用过程
当编译时使用-O1或-O2选项时,编译器都执行这种嵌套优化。需要注意的是,当函数中引用了局部变量地址,由于指针别名问题的影响,即使函数在返回时调用了其他函数,编译器也不会使用嵌套优化。
下面通过一个例子来分析嵌套优化是如何提高代码执行效率的。
extern int func2(int);
int func1 (int a, int b)
{ if (a 》 b)
return (func2(a - b));
else
return (func2(b - a));
}
编译后的代码如下所示。
func1
CMP a1,a2
SUBLE a1,a2,a1
SUBGT a1,a1,a2
B func2
首先,func1中使用B指令代替BL指令,不用担心lr寄存器被破坏,减少了对寄存器压栈保护操作。另外,程序直接从func2返回到调用func1的函数,减少一次函数返回。如果说正常的指令调用过程为:
BL + BL+ MOV pc,lr + MOV pc,lr
那么经过嵌套优化的函数调用过程就可以表示为:
BL + BL+ MOV pc,lr
这样,总的开销将减少25%。
14.9.5 单纯子函数
所谓单纯子函数(Pure Functions)是指那些函数返回值只和调用参数有关。换句话说,就是如果调用函数的参数相同,那么函数的返回结果也相同。如果程序中存在这样的函数,可以在函数定义时使用_pure进行声明,这样在程序编译时编译器会根据函数的调用情况对其进行优化。
下面的例子显示了当函数用_pure声明时,编译器对其所做的优化。
程序源码文件如下。
int square(int x)
{
return x * x;
}
int f(int n)
{
return square(n) + square(n)
}
编译后的结果如下。
square
MOV a2,a1
MUL a1,a2,a2
MOV pc,lr
f
STMDB sp!,{lr}
MOV a3,a1
BL square
MOV a4,a1
MOV a1,a3
BL square
ADD a1,a4,a1
LDMIA sp!,{pc}
上面的程序中,square函数为“单纯子函数”,当使用_pure声明该函数时编译器在调用该函数时,将对程序进行优化。
声明的方法和编译后的结果如下所示。
__pure int square(int x)
{
return x * x;
}
f
STMDB sp!,{lr}
BL square
MOV a1,a1,LSL #1
LDMIA sp!,{pc}
从编译后的代码中可以看到,用_pure声明的函数在f函数中只调用了一次。
虽然“单纯子函数”可以提高代码执行效率,但同时也会带来一些负面影响。比如,在“单纯子函数”中,不能直接或间接访问内存地址。所以在程序中使用“单纯子函数”时要特别小心。
另外,还可以使用#pragma声明“单纯子函数”,下面的代码显示了它的声明过程。
#pragma no_side_effects
/* function definition */
#pragma side_effects
函数设计的基本原则是使其函数体尽量的小。这样编译器可以对函数做更多的优化。
14.9.1 减少函数调用开销
ARM上的函数调用开销比非RISC体系结构上的调用开销小:
· 调用返回指令“BL”或“MOV pc,lr”一般只需要6个指令周期(ARM7上)。
· 在函数的入口和出口使用多寄存器加载/存储指令LDM和STM(Thumb指令使用PUSH和POP)提高函数体的执行效率。
ARM体系结构过程调用标准AAPCS定义了如何通过寄存器传递参数和返回值。函数中的前4个整型参数是通过ARM的前4个寄存器r0、r1、r2和r3来传递的。传递参数可以是与整型兼容的数据类型,如字符类型char、半字类型short等。
注意如果是双字类型,如long long型,只能通过寄存器传递两个参数。
不能通过寄存器传递的参数,通过函数堆栈来传递。这样不论是函数的调用者还是被调用者都必须通过访问堆栈来访问参数,使程序的执行效率下降。
下面的例子显示了函数调用是传递4个参数和多于4个参数的区别。
传递4个参数的函数调用源文件如下。
int func1(int a, int b, int c, int d)
{
return a+b+c+d;
}
int caller1(void)
{
return func1(1,2,3,4);
}
编译的结果如下。
func1
ADD r0,r0,r1
ADD r0,r0,r2
ADD r0,r0,r3
MOV pc,lr
caller1
MOV r3,#4
MOV r2,#3
MOV r1,#2
MOV r0,#1
B func1
如果程序需要传递6个参数,变为如下形式。
int func2(int a, int b, int c, int d,int e,int f)
{
return a+b+c+d+e+f;
}
int caller2(void)
{
return func1(1,2,3,4,5,6);
}
则编译后的汇编文件如下。
func2
STR lr, [sp,#-4]!
ADD r0,r0,r1
ADD r0,r0,r2
ADD r0,r0,r3
LDMIB sp,{r12,r14}
ADD r0,r0,r12
ADD r0,r0,r14
LDR pc,{sp},#4
caller2
STMFD sp!,{r2,r3,lr}
MOV r3,#6
MOV r2,#5
STMIA sp,{r2,r3}
MOV r3,#4
MOV r2,#3
MOV r1,#2
MOV r0,#1
BL func2
LDMFD sp!,{r2,r3,pc}
综上所述,为了在程序中高效的调用函数,最好遵循以下规则。
· 尽量限制函数的参数,不要超过4个,这样函数调用的效率会更高。
· 当传递的参数超过4个时,要将多个相关参数组织在一个结构体中,用传递结构体指针来代替多个参数。
· 避免将传递的参数定义为long long型,因为传递一个long long型的数据将会占用两个32位寄存器。
· 函数中存在浮点运算时,避免使用double型参数。
14.9.2 使用__value_in_regs返回结构体
编译选项__value_in_regs指示编译器在整数寄存器中返回4个整数字的结构或者在浮点寄存器中返回4个浮点型或双精度型值,而不使用存储器。
下面的例子显示了__value_in_regs选项的用法。
typedef struct { int hi; uint lo; } int64; // 注意该结构中,高位为有符号整数,低位为无符号整数
__value_in_regs int64 add64(int64 x, int64 y)
{ int64 res;
res.lo = x.lo + y.lo;
res.hi = x.hi + y.hi;
if (res.lo 《 y.lo) res.hi++; // carry from low word
return res;
}
void test(void)
{ int64 a, b, c, sum;
a.hi = 0x00000000; a.lo = 0xF0000000;
b.hi = 0x00000001; b.lo = 0x10000001;
sum = add64(a, b);
c.hi = 0x00000002; c.lo = 0xFFFFFFFF;
sum = add64(sum, c);
}
编译后的结果如下所示。
add64
ADDS a2,a2,a4
ADC a1,a3,a1
MOV pc,lr
test
STMDB sp!,{lr}
MOV a1,#0
MOV a2,#&f0000000
MOV a3,#1
MOV a4,#&10000001
BL add64
MOV a3,#2
MVN a4,#0
LDMIA sp!,{lr}
B add64
当使用__value_in_regs定义结构体时,编译的代码大小为52字节,如果不使用__value_in_regs选项,则编译出的结果为160字节(本书中没有列出未使用__value_in_regs时的编译结果,读者有兴趣可以自己上机试验)。
14.9.3 叶子函数
所谓叶子函数(leaf function)就是在其函数体内不存在对其他函数调用,它也常被称为终级函数。因为叶子函数不需要调用其他函数,所有没有保存/恢复寄存器的操作,因此执行效率比一般函数要高。
当函数中必须对一些寄存器进行保存时,可以使用高效率的多寄存器存储指令STM,对需要保存的寄存器内存一次性存储。
正是由于叶子函数执行的高效性,所以在编程时,尽量将子程序编写为叶子函数,这样即使程序中多次调用也不会影响代码性能。
为了高效的调用函数,可以遵循下面函数调用原则。
· 避免在被频繁调用的函数中调用其他函数,以保证被频繁调用的函数被编译器编译为叶子函数。
· 把比较小的被调用函数和调用函数放在同一个源文件中,并且要先定义后调用,编译器就可以优化函数调用或内联较小的函数。
· 对性能影响较大的重要函数可使用关键字_inline进行内联。
14.9.4 嵌套优化
注意嵌套优化(Tail-Call optimization)只适用于armcc。编译时如果使用-g或-debug选项,编译器自动关闭该功能。
一个函数如果在其结束时调用了另一个函数,则编译器使用B指令调转到被调用函数,而非BL指令。这样就避免了一级不必要的函数返回。图14.3显示了嵌套优化的调用过程。
图14.3 嵌套优化函数调用过程
当编译时使用-O1或-O2选项时,编译器都执行这种嵌套优化。需要注意的是,当函数中引用了局部变量地址,由于指针别名问题的影响,即使函数在返回时调用了其他函数,编译器也不会使用嵌套优化。
下面通过一个例子来分析嵌套优化是如何提高代码执行效率的。
extern int func2(int);
int func1 (int a, int b)
{ if (a 》 b)
return (func2(a - b));
else
return (func2(b - a));
}
编译后的代码如下所示。
func1
CMP a1,a2
SUBLE a1,a2,a1
SUBGT a1,a1,a2
B func2
首先,func1中使用B指令代替BL指令,不用担心lr寄存器被破坏,减少了对寄存器压栈保护操作。另外,程序直接从func2返回到调用func1的函数,减少一次函数返回。如果说正常的指令调用过程为:
BL + BL+ MOV pc,lr + MOV pc,lr
那么经过嵌套优化的函数调用过程就可以表示为:
BL + BL+ MOV pc,lr
这样,总的开销将减少25%。
14.9.5 单纯子函数
所谓单纯子函数(Pure Functions)是指那些函数返回值只和调用参数有关。换句话说,就是如果调用函数的参数相同,那么函数的返回结果也相同。如果程序中存在这样的函数,可以在函数定义时使用_pure进行声明,这样在程序编译时编译器会根据函数的调用情况对其进行优化。
下面的例子显示了当函数用_pure声明时,编译器对其所做的优化。
程序源码文件如下。
int square(int x)
{
return x * x;
}
int f(int n)
{
return square(n) + square(n)
}
编译后的结果如下。
square
MOV a2,a1
MUL a1,a2,a2
MOV pc,lr
f
STMDB sp!,{lr}
MOV a3,a1
BL square
MOV a4,a1
MOV a1,a3
BL square
ADD a1,a4,a1
LDMIA sp!,{pc}
上面的程序中,square函数为“单纯子函数”,当使用_pure声明该函数时编译器在调用该函数时,将对程序进行优化。
声明的方法和编译后的结果如下所示。
__pure int square(int x)
{
return x * x;
}
f
STMDB sp!,{lr}
BL square
MOV a1,a1,LSL #1
LDMIA sp!,{pc}
从编译后的代码中可以看到,用_pure声明的函数在f函数中只调用了一次。
虽然“单纯子函数”可以提高代码执行效率,但同时也会带来一些负面影响。比如,在“单纯子函数”中,不能直接或间接访问内存地址。所以在程序中使用“单纯子函数”时要特别小心。
另外,还可以使用#pragma声明“单纯子函数”,下面的代码显示了它的声明过程。
#pragma no_side_effects
/* function definition */
#pragma side_effects
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- C代码与javaScript函数的相互调用问题应该如何解决 17次下载
- C语言教程之函数的详细资料说明 9次下载
- 如何在中断C函数中调用C++
- Linux教程之Linux C函数参考教程免费下载 4次下载
- C语言实用教程之函数的详细资料说明 3次下载
- C语言入门基础教程之函数的详细资料说明 6次下载
- C语言程序设计教程之如何进行函数与编译预处理资料概述 4次下载
- C语言程序设计实用教程之函数详细介绍和应用 2次下载
- C++语言入门教程之C++语言程序设计函数的详细资料概述免费下载 23次下载
- c#调用matlab函数 24次下载
- C语言教程之不使用strcpy()函数实现 0次下载
- C#教程之调用Outlook发送邮件 4次下载
- C#教程之调用SMTP发送文本内容 5次下载
- C#教程之调用SMTP发送有附件的邮件 16次下载
- C++教程之函数的递归调用
- 子函数多层调用的主要注意事项分析 546次阅读
- 如何查看及更改函数/函数块的调用环境 654次阅读
- 博途的多重背景调用 3309次阅读
- SCL中调用函数的示例 1847次阅读
- 什么是Python的递归函数 1635次阅读
- C语言内联函数 835次阅读
- C程序流程设计之函数 620次阅读
- 嵌入式软件架构设计之函数调用 983次阅读
- 如何写要被C调用的汇编函数 1110次阅读
- C语言使用函数调用在内存中究竟发生了什么? 952次阅读
- 带你了解嵌入式C语言函数调用栈 2018次阅读
- 关于DSP中fft函数调用方法 8127次阅读
- 如何在c51程序中调用汇编函数 4105次阅读
- C语言教程之函数指针变量与指针函数的区别(下篇) 1904次阅读
- pic单片机io口控制教程之c语言编程实现 1.1w次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 92次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 10次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7蓝牙设备在嵌入式领域的广泛应用
- 0.63 MB | 3次下载 | 免费
- 89天练会电子电路识图
- 5.91 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233045次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多