C语言代码效率

举报
用户已注销 发表于 2021/11/19 02:51:01 2021/11/19
【摘要】 本文探讨常见C语言代码的执行效率。 目录 一,分析方法 二,分析难点 三,内存访问 1,二维数组的访问 2,大批量内存拷贝,用memcpy代替赋值语句 四,分支语句 1,多分支语句的顺序 2,循环嵌套条件语句 一,分析方法 我在windows机器上写C语言代码,用cmake编译运行,用clock函数计时,用来判断...

本文探讨常见C语言代码的执行效率。

目录

一,分析方法

二,分析难点

三,内存访问

1,二维数组的访问

2,大批量内存拷贝,用memcpy代替赋值语句

四,分支语句

1,多分支语句的顺序

2,循环嵌套条件语句


一,分析方法

我在windows机器上写C语言代码,用cmake编译运行,用clock函数计时,用来判断程序运行时间。

 

二,分析难点

1,对于简单的情况,编译器很可能已经做了大量的优化,使得对比结果并不明显。

但是,这却并不代表我们可以完全依赖编译器。

2,代码的两种写法,在不同程度的编译优化下,哪种写法更快可能没有定论。

例如下面的“循环嵌套条件语句”,clion上运行的是1770 1501,visual studio上运行的是849 1228,感觉应该是vs做的编译优化比较多,简单的if语句可能被优化掉了。

 

三,内存访问

1,二维数组的访问

二维数组的访问,最好不要跳内存。


  
  1. #include <stdio.h>
  2. #include "time.h"
  3. #define N 1000000
  4. #define M 1000
  5. typedef struct
  6. {
  7. int a[N];
  8. }Node;
  9. #define OUTCLOCK \
  10. printf("%d ",clock()-theClock); \
  11. theClock=clock();
  12. int main()
  13. {
  14. clock_t theClock=clock();
  15. Node *p=(Node *)malloc(sizeof(Node)*M);
  16. OUTCLOCK
  17. for(int i=0;i<M;i++)for(int j=0;j<N;j++)p[i].a[j]=i*j+1;
  18. OUTCLOCK
  19. for(int j=0;j<N;j++)for(int i=0;i<M;i++)p[i].a[j]=i*j+1;
  20. OUTCLOCK
  21. return 0;
  22. }

运行结果:

0 2339 2234

单位是毫秒

2,大批量内存拷贝,用memcpy代替赋值语句


  
  1. int main()
  2. {
  3. clock_t theClock=clock();
  4. Node *p=(Node *)malloc(sizeof(Node)*M);
  5. int *p2=(int *)malloc(sizeof(int)*N*M);
  6. OUTCLOCK
  7. for(int i=0;i<M;i++)for(int j=0;j<N;j++)p2[i*N+j]=p[i].a[j];
  8. OUTCLOCK
  9. memcpy(p2,p, sizeof(int)*N*M);
  10. OUTCLOCK
  11. return 0;
  12. }

运行结果:

0 2811 276

 

四,分支语句

1,多分支语句的顺序

形如如下的代码:


  
  1. if(con1)do1;
  2. else if(con2)do2;
  3. else if(con3)do3;
  4. else do4;

假设do语句里面没有continue、break、goto、return语句,那么这段代码的执行时间分为con判断时间、do语句时间两部分。

其中,无论这些分支如何调整顺序,都不影响do语句时间,所以只需要考虑con判断时间。

假设各个分支的命中概率分别为p1 p2 p3 p4,判断时间(单个con表达式的执行时间)分别为t1 t2 t3 t4

则con判断时间T=p1t1 + p2(t1+t2) + p3(t1+t2+t3) + p4(t1+t2+t3+t4)

显然当p1/t1 > p2/t2 > p3/t3 > p4/t4时,T取到最小值。

也就是说,命中率高的分支往前放,单个con表达式执行时间较长的往后放(这种比如con表达式包含了执行一个函数)

2,循环嵌套条件语句

如果循环里面有if语句,无论是对程序员还是对cpu来说,都是一个复杂的行为。


  
  1. #include <stdio.h>
  2. #include "time.h"
  3. #define N 1000000
  4. #define M 1000
  5. int x[M],y[M];
  6. #define OUTCLOCK \
  7. printf("%d ",clock()-theClock); \
  8. theClock=clock();
  9. int main()
  10. {
  11. for(int i=0;i<M;i++)x[i]=i*i,y[i]=i*i*i+i*3+1;
  12. int d,s=0;
  13. scanf("%d",&d);
  14. clock_t theClock=clock();
  15. for(int i=0;i<N;i++)for(int i=0;i<M;i++)if(x[i]==d)s+=y[i];
  16. OUTCLOCK
  17. for(int i=0;i<N;i++)for(int i=0;i<M;i++)s+=((x[i]==d)?y[i]:0);
  18. OUTCLOCK
  19. return 0;
  20. }

运行结果:

250000
1770 1501

可此可见,让条件只控制数据不控制指令跳转,对于CPU来说是很友好的。

文章来源: blog.csdn.net,作者:csuzhucong,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/nameofcsdn/article/details/114598533

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。