给高校做的一个课题,64核4路金牌比32核3970x(降频180w)慢4%,前几天内部初验时老师提了意见,既要提高加速比又要支持集群还要支持国产化啥的。
年底结题,我感觉可以再优化下。现实问题是cpu接近满占用了,3970x也是4个numa,为啥3970x能加速30多倍,而4路5218也只加速30多倍,加速比不上去的原因没弄清楚,这是1个待解决问题。
听说设affinity可提高加速比,要改起来程序框架变动不小,除了要设亲和性,还哪些优化技巧?这是第2个问题
【 在 dormouseBHU 的大作中提到: 】
: 找本介绍openmp的书,上面一般都会介绍些技巧的。
--
FROM 123.150.181.*