这问题问得……
E3-1230V5的理论计算峰值=
主频 3.4 * 核数4 * 每个时钟周期浮点计算次数 16 (AVX2)
= 217.6 FLOPS。
如果没有访存的瓶颈,比如采用AVX2指令循环计算两个小数组,计算性能就能达到理论峰值。
对矩阵乘这样的计算密集型运算,优化后的算法能达到峰值90%左右的实际性能。
也就是说,对这款CPU,200GFLOPS左右的实际计算性能才合理。
对访存密集型运算,例如FFT,喂数据速度(取决于多级缓存容量和性能)赶不上CPU计算速度,实际性能通常只有理论峰值的20%以下。
所有性能问题的核心都在于找到瓶颈,是计算、访存、IO还是网络?
【 在 snnn 的大作中提到: 】
: 举个例子
: Intel(R) Xeon(R) Processor E3-1230 v5
: 8M Cache, 3.40 GHz
: ...................
--
FROM 125.119.129.*