windows下sse性能对比

举报
风吹稻花香 发表于 2021/06/04 23:27:05 2021/06/04
【摘要】 SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之后,在其计算机芯片Pentium III中引入的指令集,是MMX的超集。AMD后来在Athlon XP中加入了对这个指令集的支持。这个指令集增加了对8个128位寄存器XMM0-XMM7的支持,每个寄存器可以存储4个单精度浮点数。使用这些寄存器的程序必须使用FXSAVE和...

SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之后,在其计算机芯片Pentium III中引入的指令集,是MMX的超集。AMD后来在Athlon XP中加入了对这个指令集的支持。这个指令集增加了对8个128位寄存器XMM0-XMM7的支持,每个寄存器可以存储4个单精度浮点数。使用这些寄存器的程序必须使用FXSAVE和FXRSTR指令来保持和恢复状态。但是在Pentium III对SSE的实现中,浮点数寄存器又一次被新的指令集占用了,但是这一次切换运算模式不是必要的了,只是SSE和浮点数指令不能同时进入CPU的处理线而已。

库文件说明


  
  1. #ifndef __METHOD
  2. #define __METHOD
  3. void ScaleValue1(float *pArray, DWORD dwCount, float fScale);//乘法
  4. void ScaleValue2(float *pArray, DWORD dwCount, float fScale);
  5. void Add1(float *pArray, DWORD dwCount, float fScale);//加法
  6. void Add2(float *pArray, DWORD dwCount, float fScale);
  7. void Sqrt1(float *pArray, DWORD dwCount, float fScale);//平方
  8. void Sqrt2(float *pArray, DWORD dwCount, float fScale);
  9. void Min1(float *pArray, DWORD dwCount, float fScale);//最小值
  10. void Min2(float *pArray, DWORD dwCount, float fScale);//最小值
  11. void Max1(float *pArray, DWORD dwCount, float fScale);//最小值
  12. void Max2(float *pArray, DWORD dwCount, float fScale);//最小值
  13. void And1(float *pArray, DWORD dwCount, float fScale);//与操作
  14. void And2(float *pArray, DWORD dwCount, float fScale);//与操作
  15. #endif
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

  
  1. #include <xmmintrin.h>
  2. #include <Windows.h>
  3. #include <math.h>
  4. void ScaleValue1(float *pArray, DWORD dwCount, float fScale)//乘法
  5. {
  6. DWORD dwGroupCount = dwCount/4;
  7. __m128 e_Scale = _mm_set_ps1(fScale);//设置所有4个值为同一值
  8. for (DWORD i=0; i<dwGroupCount; i++)
  9. {
  10. *(__m128*)(pArray + i*4) = _mm_mul_ps( *(__m128*)(pArray + i*4),e_Scale);
  11. }
  12. }
  13. void ScaleValue2(float *pArray, DWORD dwCount, float fScale)
  14. {
  15. for (DWORD i =0; i<dwCount; i++)
  16. {
  17. pArray[i] *= fScale;
  18. }
  19. }
  20. void Add1(float *pArray, DWORD dwCount, float fScale)//加法
  21. {
  22. DWORD dwGroupCount = dwCount/4;
  23. __m128 e_Scale = _mm_set_ps1(fScale);//设置所有4个值为同一值
  24. for (DWORD i=0; i<dwGroupCount; i++)
  25. {
  26. *(__m128*)(pArray + i*4) = _mm_add_ps( *(__m128*)(pArray + i*4),e_Scale);
  27. }
  28. }
  29. void Add2(float *pArray, DWORD dwCount, float fScale)
  30. {
  31. for (DWORD i =0; i<dwCount; i++)
  32. {
  33. pArray[i] += fScale;
  34. }
  35. }
  36. void Sqrt1(float *pArray, DWORD dwCount, float fScale)//平方
  37. {
  38. DWORD dwGroupCount = dwCount/4;
  39. __m128 e_Scale = _mm_set_ps1(fScale);//设置所有4个值为同一值
  40. for (DWORD i=0; i<dwGroupCount; i++)
  41. {
  42. *(__m128*)(pArray + i*4) = _mm_sqrt_ps(e_Scale);
  43. }
  44. }
  45. void Sqrt2(float *pArray, DWORD dwCount, float fScale)
  46. {
  47. for (DWORD i =0; i<dwCount; i++)
  48. {
  49. pArray[i] = sqrt(fScale);
  50. }
  51. }
  52. void Min1(float *pArray, DWORD dwCount, float fScale)//最小值
  53. {
  54. DWORD dwGroupCount = dwCount/4;
  55. __m128 e_Scale = _mm_set_ps1(fScale);//设置所有4个值为同一值
  56. for (DWORD i=0; i<dwGroupCount; i++)
  57. {
  58. *(__m128*)(pArray + i*4) = _mm_min_ps( *(__m128*)(pArray + i*4),e_Scale);
  59. }
  60. }
  61. void Min2(float *pArray, DWORD dwCount, float fScale)
  62. {
  63. for (DWORD i =0; i<dwCount; i++)
  64. {
  65. pArray[i] = (pArray[i]>fScale? fScale : pArray[i]);
  66. }
  67. }
  68. void Max1(float *pArray, DWORD dwCount, float fScale)//最大值
  69. {
  70. DWORD dwGroupCount = dwCount/4;
  71. __m128 e_Scale = _mm_set_ps1(fScale);//设置所有4个值为同一值
  72. for (DWORD i=0; i<dwGroupCount; i++)
  73. {
  74. *(__m128*)(pArray + i*4) = _mm_max_ps( *(__m128*)(pArray + i*4),e_Scale);
  75. }
  76. }
  77. void Max2(float *pArray, DWORD dwCount, float fScale)
  78. {
  79. for (DWORD i =0; i<dwCount; i++)
  80. {
  81. pArray[i] = (pArray[i]<fScale? fScale : pArray[i]);
  82. }
  83. }
  84. void And1(float *pArray, DWORD dwCount, float fScale)//与操作
  85. {
  86. DWORD dwGroupCount = dwCount/4;
  87. __m128 e_Scale = _mm_set_ps1(fScale);//设置所有4个值为同一值
  88. for (DWORD i=0; i<dwGroupCount; i++)
  89. {
  90. *(__m128*)(pArray + i*4) = _mm_and_ps( *(__m128*)(pArray + i*4),e_Scale);
  91. }
  92. }
  93. void And2(float *pArray, DWORD dwCount, float fScale)
  94. {
  95. for (DWORD i =0; i<dwCount; i++)
  96. {
  97. pArray[i] = (int)(pArray[i]) & (int)(fScale);
  98. }
  99. }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117

采用SSE和不采用SSE的数学计算操作速度对比:


  
  1. #include <xmmintrin.h>
  2. #include <Windows.h>
  3. #include <iostream>
  4. #include "Method.h"
  5. using namespace std;
  6. #define ARRAYCOUNT 1000
  7. #define COUNTSIZE 10000
  8. class CTimer
  9. {
  10. public:
  11. __forceinline CTimer(void)
  12. {
  13. QueryPerformanceFrequency(&m_Frequency);// 获取时钟周期
  14. QueryPerformanceCounter(&m_StartCount);// 获取时钟计数
  15. }
  16. __forceinline void Reset(void)
  17. {
  18. QueryPerformanceCounter(&m_StartCount);
  19. }
  20. __forceinline double End(void)
  21. {
  22. QueryPerformanceCounter(&m_EndCount);
  23. return ( m_EndCount.QuadPart - m_StartCount.QuadPart )*1000/m_Frequency.QuadPart;
  24. }
  25. private:
  26. LARGE_INTEGER m_Frequency;
  27. LARGE_INTEGER m_StartCount;
  28. LARGE_INTEGER m_EndCount;
  29. };
  30. int __cdecl main()
  31. {
  32. float __declspec(align(16))Array[ARRAYCOUNT];
  33. //__declspec(align(16))做为数组定义的修释符,这表示该数组是以16字节为边界对齐的,
  34. //因为SSE指令只能支持这种格式的内存数据
  35. memset(Array, 0, sizeof(float)*ARRAYCOUNT);
  36. CTimer t;
  37. double dTime;
  38. //乘法
  39. cout<<"乘法:"<<endl;
  40. t.Reset();
  41. for (int i=0; i<COUNTSIZE; i++)
  42. {
  43. ScaleValue1(Array, ARRAYCOUNT, 1000.0f);
  44. }
  45. dTime = t.End();
  46. cout<<"Use SSE: "<<dTime<<"毫秒"<<endl;
  47. t.Reset();
  48. for (int i=0; i<COUNTSIZE; i++)
  49. {
  50. ScaleValue2(Array, ARRAYCOUNT, 1000.0f);
  51. }
  52. dTime = t.End();
  53. cout<<"Not Use SSE: "<<dTime<<"毫秒"<<endl;
  54. //加法
  55. cout<<"加法:"<<endl;
  56. t.Reset();
  57. for (int i=0; i<COUNTSIZE; i++)
  58. {
  59. Add1(Array, ARRAYCOUNT, 1000.0f);
  60. }
  61. dTime = t.End();
  62. cout<<"Use SSE: "<<dTime<<"毫秒"<<endl;
  63. t.Reset();
  64. for (int i=0; i<COUNTSIZE; i++)
  65. {
  66. Add2(Array, ARRAYCOUNT, 1000.0f);
  67. }
  68. dTime = t.End();
  69. cout<<"Not Use SSE: "<<dTime<<"毫秒"<<endl;
  70. //平方
  71. cout<<"平方:"<<endl;
  72. t.Reset();
  73. for (int i=0; i<COUNTSIZE; i++)
  74. {
  75. Sqrt1(Array, ARRAYCOUNT, 1000.0f);
  76. }
  77. dTime = t.End();
  78. cout<<"Use SSE: "<<dTime<<"毫秒"<<endl;
  79. t.Reset();
  80. for (int i=0; i<COUNTSIZE; i++)
  81. {
  82. Sqrt2(Array, ARRAYCOUNT, 1000.0f);
  83. }
  84. dTime = t.End();
  85. cout<<"Not Use SSE: "<<dTime<<"毫秒"<<endl;
  86. //最小值
  87. cout<<"最小值:"<<endl;
  88. t.Reset();
  89. for (int i=0; i<COUNTSIZE; i++)
  90. {
  91. Min1(Array, ARRAYCOUNT, 1000.0f);
  92. }
  93. dTime = t.End();
  94. cout<<"Use SSE: "<<dTime<<"毫秒"<<endl;
  95. t.Reset();
  96. for (int i=0; i<COUNTSIZE; i++)
  97. {
  98. Min2(Array, ARRAYCOUNT, 1000.0f);
  99. }
  100. dTime = t.End();
  101. cout<<"Not Use SSE: "<<dTime<<"毫秒"<<endl;
  102. //最大值
  103. cout<<"最大值:"<<endl;
  104. t.Reset();
  105. for (int i=0; i<COUNTSIZE; i++)
  106. {
  107. Max1(Array, ARRAYCOUNT, 1000.0f);
  108. }
  109. dTime = t.End();
  110. cout<<"Use SSE: "<<dTime<<"毫秒"<<endl;
  111. t.Reset();
  112. for (int i=0; i<COUNTSIZE; i++)
  113. {
  114. Max2(Array, ARRAYCOUNT, 1000.0f);
  115. }
  116. dTime = t.End();
  117. cout<<"Not Use SSE: "<<dTime<<"毫秒"<<endl;
  118. //与操作
  119. cout<<"与操作:"<<endl;
  120. t.Reset();
  121. for (int i=0; i<COUNTSIZE; i++)
  122. {
  123. And1(Array, ARRAYCOUNT, 1000.0f);
  124. }
  125. dTime = t.End();
  126. cout<<"Use SSE: "<<dTime<<"毫秒"<<endl;
  127. t.Reset();
  128. for (int i=0; i<COUNTSIZE; i++)
  129. {
  130. And2(Array, ARRAYCOUNT, 1000.0f);
  131. }
  132. dTime = t.End();
  133. cout<<"Not Use SSE: "<<dTime<<"毫秒"<<endl;
  134. system("pause");
  135. return 0;
  136. }

文章来源: blog.csdn.net,作者:网奇,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/jacke121/article/details/54706022

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。