11.5_性能评价与本章小结

11.5 性能评价与本章小结

本章介绍了SAXPY的四种不同的实现,强调了数据移动的不同策略:

·设备内存的同步内存传出与传入
·设备内存的异步内存传出与传入
·使用流的异步内存复制
·直接使用映射锁页内存

表11-1和图11-1总结了这些实现的相对性能。实验针对128M个浮点数,实验环境为带有GK104显卡的英特尔i7平台(PCIe 2.0)和英特尔至强E5-2670平台(PCIe 3.0)。PCIe 3.0的好处是显而易见的,它们约快一倍。此外,E5-2670 CPU/GPU的同步开销较高,这是因为基于分页的内存复制操作较慢。

表11-1 流的性能比较


图11-1 带宽比较(GeForce GTX 680在Intel i7平台与在沙桥平台)

11.5_性能评价与本章小结 - CUDA专家手册 | OpenTech