- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

CUDA 专业小贴士：编写灵活的内核与网格-跨步循环

ShaderJoy 发表于 2021/12/31 22:25:35 2021/12/31

【摘要】 CUDA 编程中最常见的任务之一是使用内核并行化循环。让我们用我们的老朋友 SAXPY () 来举个栗子。下面是基本的顺序实现，它使用 for 循环。为了有效地并行化，我们需要启动足够的线程来充分利用 GPU 。 void saxpy(int n, float a, float *x, float *y)...

CUDA 编程中最常见的任务之一是使用内核并行化循环。让我们用我们的老朋友 SAXPY ( $z=\alpha *x+y$ ) 来举个栗子。下面是基本的顺序实现，它使用 for 循环。为了有效地并行化，我们需要启动足够的线程来充分利用 GPU 。


  
   
    
     
    
    
     
      void saxpy(int n, float a, float *x, float *y)
     
    
   
    
     
    
    
     
      {
     
    
   
    
     
    
    
         for (int i = 0; i < n; ++i)
     
    
   
    
     
    
    
     
              y[i] = a * x[i] + y[i];
     
    
   
    
     
    
    
     
      }

常见的 CUDA 指导是为每个数据元素启动一个线程，这意味着并行化上面的 SAXPY 循环，我们编写一个内核，假设我们有足够的线程来覆盖数组大小。


  
   
    
     
    
    
     
      __global__
     
    
   
    
     
    
    
     
      void saxpy(int n, float a, float *x, float *y)
     
    
   
    
     
    
    
     
      {
     
    
   
    
     
    
    
         int i = blockIdx.x * blockDim.x + threadIdx.x;
     
    
   
    
     
    
    
         if (i < n) 
     
    
   
    
     
    
    
     
              y[i] = a * x[i] + y[i];
     
    
   
    
     
    
    
     
      }

我将把这种类型的内核称为 单内核，因为它假设一个大的线程网格一次处理整个数组。您可以使用以下代码启动 saxpy 内核来处理一百万个元素。<

文章来源: panda1234lee.blog.csdn.net，作者：panda1234lee，版权归原作者所有，如需转载，请联系作者。

原文链接：panda1234lee.blog.csdn.net/article/details/88705251

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

CUDA 专业小贴士：编写灵活的内核与网格-跨步循环

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

CUDA 专业小贴士：编写灵活的内核与网格-跨步循环

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品