等你把那部分C代码修改成OpenCL或者CUDA的,然后在RTX5090上跑,可能会发现比CPU上跑又快了几十倍甚至100倍。
当然最便宜的加速方案是直接在你的C代码循环上加OpenMP预编译提示,让它被编译器优化为多线程并行计算的,比你现有代码能快上几倍,看你的代码质量了,也许要重构优化一下适合并行。
※ 修改:·poocp 于 Dec 26 21:10:31 2025 修改本文·[FROM: 171.213.144.*]
※ 来源:·水木社区
http://www.mysmth.net·[FROM: 171.213.144.*]
修改:poocp FROM 171.213.144.*
FROM 171.213.144.*