- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

编程模型

叫我小刘就好了发表于 2026/05/29 16:26:34 2026/05/29

【摘要】第2章编程模型 2.1 概述（本章节原文未提供具体内容，请根据实际补充） 2.2 线程分批与协作 2.2.1 高度多线程协处理器通过CUDA编程时，将GPU看作可以并行执行非常多个线程的计算设备（compute device）。它作为主CPU的协处理器或者主机（host）来运作：换句话说，在主机上运行的应用程序中，数据并行的、计算密集的部分卸载到此设备上。更准确地说，多次但在不同数据上独...

第2章编程模型

2.1高度多线程协处理器

通过CUDA编程时，将GPU看作可以并行执行非常多个线程的计算设备（compute device）。
它作为主CPU的协处理器或者主机（host）来运作：换句话说，在主机上运行的应用程序中，数据并行的、计算密集的部分卸载到此设备上。

更准确地说，多次但在不同数据上独立执行的应用程序部分可以独立放到在此设备上作为许多不同线程执行的函数中。要达到这种效果，可以将这样一个函数编译到设备的指令集合中，并将得到的程序（叫做内核, kernel）下载到设备上。

主机和设备都保留自己的DRAM，分别称为主机内存 (host memory) 和设备内存 (device memory)。
用户可以通过优化的API调用将数据从一个DRAM复制到其他DRAM中，而优化的API调用使用了设备的高性能直接内存访问 (DMA) 引擎。

2.2 线程分批与协作

2.2.1 高度多线程协处理器

线程分批

执行内核的线程批次组织为线程块的网格，如2.2.1和2.2.2所述，并参见图2-1。

图2-1展示了线程如何分批组织为线程块和网格。

线程块

线程块是可以一起协作的线程批次，它们通过一些快速的共享内存有效地共享数据，并同步其执行以协调内存访问。更准确地说，用户可以在内核中指定同步点，块中的线程在到达此同步点时挂起。

每个线程由线程ID (thread ID) 标识，这是块中的线程号。为了帮助基于线程ID的复杂寻址，应用程序还可以将块指定为任意大小的二维或三维度组，并使用2个或3个组件索引来标识每个线程。

对于大小 ((D_x, D_y)) 的二维块，索引为 ((x, y)) 的线程的线程ID为 ((x + y D_x))
对于大小 ((D_x, D_y, D_z)) 的三维块，索引为 ((x, y, z)) 的线程的线程ID为 ((x + y D_x + z D_x D_y))

2.2.2 线程块网格

块可以包含的最大线程数是有限制的。但是，执行相同内核的具有相同维度和大小的块可以分批组合到块网格中，以便可以在单个内核调用中启动的线程总数变得更大。这是以线程协作的降低为代价的，因为同一网格中不同线程块中的线程不能互相通信和同步。此模型允许内核有效运行，而不必在具有不同并行能力的各种设备上重新编译：如果设备具有非常少的并行能力，则可以顺序运行网格的所有块，如果具有很多并行能力，则可以并行运行网格的所有块，通常是二者组合使用。

每个块由其块ID标识，这是网格中的块号。为了帮助基于块ID的复杂寻址，应用程序还可以将网格指定为任意大小的二维度组，并使用2个组件索引来标识每个块。

对于大小 ((D_x, D_y)) 的二维块，索引为 ((x, y)) 的块的块ID为 ((x + y D_x))。

图2-1同样示意了线程块网格的组织方式。

主机执行一连串对设备的内核调用。每个内核作为组织为线程块网格的一批线程来执行。

2.3 内存模型

在设备上执行的线程只能通过下列内存空间访问设备的DRAM和芯片内存储单元，如图2-2所示：

读写每线程寄存器
读写每线程本地内存
读写每块共享内存
读写每网格全局内存
只读每网格常量内存
只读每网格纹理内存

全局、常量和纹理内存空间可以通过主机读或写，并永久存在于相同应用程序的内核启动中。

全局、常量和纹理内存空间为不同的内存使用进行了优化。纹理内存还为一些特定的数据格式提供不同的寻址模式以及数据筛选。

图2-2展示了线程可访问的不同内存空间及其范围（寄存器、本地、共享、全局、常量、纹理）。

线程可以通过不同范围的一组内存空间来访问设备的DRAM和芯片内存。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

编程模型

第2章编程模型

2.1高度多线程协处理器