水木社区手机版
首页
|版面-C++程序设计语言(CPlusPlus)|
新版wap站已上线
展开
|
楼主
|
同主题展开
|
溯源
|
返回
上一篇
|
下一篇
|
同主题上篇
主题:Re: 这种情况能加速吗?
fanci
|
2020-02-10 20:41:37
|
你有没有考虑 cache locality ,大量的计算访问的内存不要蹦来蹦去的,最好在临近的内存位置。
【 在 xibaomo () 的大作中提到: 】
: 先放结论:感谢大家的出谋划策,但很遗憾都没什么用,都比不上让gcc自己优化。。
: 1. 有人建议inline,经实践检验这么简单的函数编译器直接做成inline
: 2. fma,需要先算后一个乘积,再缓存,再丢给fma,结果反而比no fma更慢,这里有个链接正好说明了乘积和的情况
https://stackoverflow.com/questions/23710356/how-to-chain-multiple-fma-operations-together-for-performance
: 3. avx/avx2,先要创建两个__m256 vector,再调用_mm256_mul_ps,但结果比不用avx慢了5倍。
--
FROM 138.19.103.*
上一篇
|
下一篇
|
同主题上篇
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版