- 主题:求指点高性能计算的技术栈学习路径
高算主要基础课是计算机体系结构,编码只是技巧应用
【 在 Akyrum 的大作中提到: 】
: 平时抠代码基本凭心情套用tbb::pineline和tbb::parallel,没用过L1 optimize也没用过cpu affinity。编译后的程序在单cpu机器上多核较单核加速比不错,但在2路ylj、4路金牌上明明cpu占用率80% 了,测下来吞吐率加速比不高,原因可能是什么?
: 我是不是该补些姿势,从哪里学起?
- 来自「最水木 for iPhone Xs」
--
FROM 124.160.213.*
拿 intel vtune 入手可能是个不错的选择,可以先看下瓶颈在哪里。计算,访存,硬盘,网络都有可能,你要是一个个优化方法试过去,实在太低效
【 在 Akyrum 的大作中提到: 】
: 国内教体系结构的学校本来就不多,公司一起码代码的兄弟们能把业务处理逻辑写顺就不错了....去学体系结构不现实
: 【 在 StephenLee 的大作中提到: 】
: : 高算主要基础课是计算机体系结构,编码只是技巧应用
: ....................
- 来自「最水木 for iPhone Xs」
--
FROM 124.160.212.*
软件所的 openblas 项目,目前开源blas库的首选,相关的论文和博客也有很多
【 在 Akyrum 的大作中提到: 】
: 有没有推荐的书或课程/有没有推荐的开源项目可学习模仿下?
: 研究研究为啥高手的linpack能64核intel 4numa暴打32核amd 4numa,而我写的程序64核intel勉强打平32核amd
: 【 在 ziqin 的大作中提到: 】
: ....................
- 来自「最水木 for iPhone13,2」
--
FROM 115.193.178.*