深度神经网络加速cuDNN&TensorRT
CPU: 延迟导向内核
-
分支预测
-
流水线前传
-
计算密集
GPU: 吞吐导向内核
-
没有分支预测
-
没有数据转发
数据并行
Cuda (Compute Unified Device Architecture)
- 无需复杂着色语言和图形处理原语
OpenCL (Open Computing Language)
- 支持平台多
Cuda:
-
线程处理器 SP 对应线程 thread
-
多核处理器 SM 对应线程块 thread block
-
设备端 device 对应线程块组合体 grid
Warp线程束
Practise
Kernel function __global__修饰