我是说要么cuda要么上simd/avx,二选一
cuda性能应该没问题,就是我们很多开发机没显卡,测试要上样机才行,麻烦
【 在 baiwife 的大作中提到: 】
: 1. 用intrinsic可能比编译器自动向量化好,也可能不好,取决于intrinsic的水平
: 2.omp和simd不矛盾,用omp可能好也可能不好,取决于parallel for部分执行时间与总时间的关系
: 3.cuda simd是个啥意思?nv gpu的cuda core是个scalar的吧,是simt模型,没有向量化计算单元
: ...................
--
FROM 171.83.95.*