完整的AD102核心共有18432个CUDA,其中包含12个图形处理集群(GPCs),72个纹理处理集群(TPCs),144个流式多处理器(SMs)。144个第三代光追核心(RTcores)、576个第四代张量核心(TensorCores)。另外可以看到Boost频率也从1.9GHz猛增到了2.5GHz。
另外一点在架构图上没有体现的是,AD102核心还包含288个FP64双精度浮点核心(每SM2个),用来确保FP64代码正确处理,包括FP64张量核心代码。
通常来讲,单精度浮点运算会用于深度学习模型训练,而双精度浮点运算则用于数值模拟工作。通常游戏卡都会砍掉FP64,这既节省了成本,又对游戏本身没有影响。而专业卡都保留有FP64,目的就是为了精度更高训练与计算。
此次资料中只提到了AD102核心搭载了288个FP64,尚不知道后续的推出的产品有无变更。
了解了完整的GA102核心,我们再来看一下RTX4090的核心,其实知道了RTX4090的参数,我们大概也能了解到后续可能推出的“Ti”系列究竟相差在哪。
相比完整的GA102来说,RTX4090共有16384个CUDA,其中包含11个GPC、64个TPC以及128个SM单元,第三代RTCores为128个,第四代TensorCores为512个。
其实根据完整的架构图就能看出,此次Ada架构整体结构性的改动并不大,这一点从SM单元便能清晰印证,同样的FP32CUDA核心,同样的FP32/INT32混合CUDA核心,同样的L1级缓存等等。当然,每个SM单元内部的TensorCore升级为第四代。