当时我那数据量还没L3大,release版跑1步才0.几ms,试了tbb/ppl/openmp速度都没提升....
还发现ipp开自动多线程能把矩阵乘耗时从2ms加速到0.几ms,单线程单步耗时这么短的计算还能用多线程加速,不知intel怎么实现的
【 在 iFighter 的大作中提到: 】
: 1) C++ threads...
: x1 * x2 * ... x*n
: thread1: p1 = x1 * ... * xn/4
: ...................
--
FROM 123.150.181.*