1. 用intrinsic可能比编译器自动向量化好,也可能不好,取决于intrinsic的水平
2.omp和simd不矛盾,用omp可能好也可能不好,取决于parallel for部分执行时间与总时间的关系
3.cuda simd是个啥意思?nv gpu的cuda core是个scalar的吧,是simt模型,没有向量化计算单元
【 在 libgcc 的大作中提到: 】
: 之前的代码都是
:
: for ...
: ....................
- 来自「最水木 for iPhone Xs」
--
FROM 124.64.19.*