我觉得是放到连续内存里更快,可以看看这个
https://docs.microsoft.com/zh-cn/archive/blogs/xiangfan/optimize-your-code-matrix-multiplication
【 在 cleaf 的大作中提到: 】
: 有一段连续内存A,里面存着N个浮点数。
:
: 现在要从另一个段连续内存B里取出不连续的N个浮点数,每一个与A相应的做乘法。
: ...................
--来自微水木3.5.8
--
修改:zzkGOOD FROM 121.69.27.*
FROM 121.69.27.*