OpenTech
書籍
Toggle theme
Toggle theme
目次
01_第1章_简介
README
1.1_方法
1.2_代码
1.3_资源
1.4_结构
02_第2章_硬件架构
README
2.1_CPU配置
2.2_集成GPU
2.3_多GPU
2.4_CUDA中的地址空间
2.5_CPU与GPU交互
2.6_GPU架构
2.7_延伸阅读
03_第3章_软件架构
README
3.1_软件层
3.2_设备与初始化
3.3_上下文
3.4_模块与函数
3.5_内核(函数)
3.6_设备内存
3.7_流与事件
3.8_主机内存
3.9_CUDA数组与纹理操作
3.10_图形互操作性
3.11_CUDA运行时与CUDA驱动程序API
04_第4章_软件环境
README
4.1_nvcc——CUDA编译器驱动程序
4.2_pxas——PTX汇编工具
4.3_cuobjdump
4.4_nvidia-smi
4.5_亚马逊Web服务
05_第5章_内存
README
5.1_主机内存
5.2_全局内存
5.3_常量内存
5.4_本地内存
5.5_纹理内存
5.6_共享内存
5.7_内存复制
06_第6章_流与事件
README
6.1_CPU与GPU的并发:隐藏驱动程序开销
6.2_异步的内存复制
6.3_CUDA事件:CPU与GPU同步
6.4_CUDA事件:计时
6.5_并发复制和内核处理
6.6_映射锁页内存
6.7_并发内核处理
6.9_源代码参考
07_第7章_内核执行
README
7.1_概况
7.2_语法
7.3_线程块、线程、线程束、束内线程
7.4_占用率
7.5_动态并行
08_第8章_流处理器簇
README
8.1_内存
8.2_整型支持
8.3_浮点支持
8.4_条件代码
8.5_纹理与表面操作
8.6_其他指令
8.7_指令集
09_第9章_多GPU
README
9.1_概述
9.2_点对点机制
9.4_多GPU间同步
9.5_单线程多GPU方案
9.6_多线程多GPU方案
10_第10章_纹理操作
README
10.1_简介
10.2_纹理内存
10.3_一维纹理操作
10.4_纹理作为数据读取方式
10.5_使用非归一化坐标的纹理操作
10.6_使用归一化坐标的纹理操作
10.7_一维表面内存的读写
10.8_二维纹理操作
10.9_二维纹理操作:避免复制
10.10_三维纹理操作
10.11_分层纹理
10.12_最优线程块大小选择以及性能
10.13_纹理操作快速参考
11_第11章_流式负载
README
11.1_设备内存
11.2_异步内存复制
11.3_流
11.4_映射锁页内存
11.5_性能评价与本章小结
12_第12章_归约算法
README
12.1_概述
12.2_两遍归约
12.3_单遍归约
12.4_使用原子操作的归约
12.5_任意线程块大小的归约
12.6_适应任意数据类型的归约
12.7_基于断定的归约
12.8_基于洗牌指令的线程束归约
13_第13章_扫描算法
README
13.1_定义与变形
13.2_概述
13.3_扫描和电路设计
13.4_CUDA实现
13.5_线程束扫描
13.6_流压缩
13.7_参考文献(并行扫描算法)
13.8_延伸阅读(并行前缀求和电路)
14_第14章_N-体问题
README
14.1_概述
14.2_简单实现
14.3_基于共享内存实现
14.4_基于常量内存实现
14.5_基于线程束洗牌实现
14.6_多GPU及其扩展性
14.7_CPU的优化
14.8_小结
15_第15章_图像处理的归一化相关系数计算
README
15.1_概述
15.2_简单的纹理实现
15.3_常量内存中的模板
15.4_共享内存中的图像
15.5_进一步优化
15.6_源代码
15.7_性能评价
15.8_延伸阅读