- 主题:机器学习训练GPU大概能比CPU快多少?
这个主要取决于现在CPU需要多少时间,如果现在时间是以小时为单位的话,比如需要几小时到几十个小时,那就无所谓了,等呗。如果现在时间是以周为单位的话,比如需要几周到几十周,那就意义重大了。
一般可以快几十倍的,原本CPU上跑一个月的训练任务上合适的GPU通常可以在一天内完成。
【 在 ds9 的大作中提到: 】
: 我用ResNet进行图像分类(由于我的图像比较小,所以模型的参数比论文上的少一些)
: 现在是在普通CPU上进行训练模型的,感觉比较慢,正在考虑是否花时间精力来改用GPU
: 训练模型
: ...................
--
FROM 122.238.141.*
我用的机器都是租的,成本不在机器本身,而是花时间精力来修改代码来更换系统
【 在 sunwaybupt (sunway) 的大作中提到: 】
: 在阿里云上租个GPU服务器体验一下就知道了
--
FROM 208.82.100.*
我的应用在CPU上训练要几个小时,但问题是要不断调参训练很多次
另外,也在考虑搞更多的数据,用更大的模型
【 在 ECUCoder (Engineer) 的大作中提到: 】
: 这个主要取决于现在CPU需要多少时间,如果现在时间是以小时为单位的话,比如需要几小时到几十个小时,那就无所谓了,等呗。如果现在时间是以周为单位的话,比如需要几周到几十周,那就意义重大了。
: 一般可以快几十倍的,原本CPU上跑一个月的训练任务上合适的GPU通常可以在一天内完成。
--
FROM 208.82.100.*
我也在搞类似的事情,打算用轻量级模型 MobileNet这类试试 这类网络对CPU友好
【 在 ds9 的大作中提到: 】
: 我用ResNet进行图像分类(由于我的图像比较小,所以模型的参数比论文上的少一些)
: 现在是在普通CPU上进行训练模型的,感觉比较慢,正在考虑是否花时间精力来改用GPU
: 训练模型
: ...................
--
FROM 27.18.230.*
CPU来训练最不爽的是多核并行太差。上8个核只能比单核快一倍(大概)
我想原因是每个iteration都要同步。
这样的话模型网络小的话对CPU多核是不是不友好啊?
【 在 masharp (masharp) 的大作中提到: 】
: 我也在搞类似的事情,打算用轻量级模型 MobileNet这类试试 这类网络对CPU友好
--
FROM 208.82.100.*
这个差距不大,我这儿,大概差不到1倍
【 在 xiaofeiyun (xiaofeiyun) 的大作中提到: 】
: 如果是部署到生产环境,只需要使用训练好的模型预测,差距有多大?
: 发自「今日水木 on MI 8」
--
FROM 113.99.4.*
如果8核比1核只快这么点,那你需要优化代码了。
【 在 ds9 的大作中提到: 】
: CPU来训练最不爽的是多核并行太差。上8个核只能比单核快一倍(大概)
: 我想原因是每个iteration都要同步。
: 这样的话模型网络小的话对CPU多核是不是不友好啊?
: ...................
--
FROM 27.18.230.*
我用的是pytorch
优化代码是pytorch平台开发人员的事情,我想优化都没法优化啊
从原理上也很容易理解,每个iteration需要所有线程的计算结果汇总同步,多核想快也快不起来啊
【 在 masharp (masharp) 的大作中提到: 】
: 如果8核比1核只快这么点,那你需要优化代码了。
--
FROM 208.82.100.*
可以去了解下分布式训练方法,大量cpu和gpu都可以一起并行加速训练的
【 在 ds9 的大作中提到: 】
: 我用的是pytorch
: 优化代码是pytorch平台开发人员的事情,我想优化都没法优化啊
: 从原理上也很容易理解,每个iteration需要所有线程的计算结果汇总同步,多核想快也快不起来啊
: ...................
--
FROM 27.18.230.*
取决于你是什么模型吧?那些不说什么模型就说十倍一百倍的都是耍流氓
【 在 ds9 的大作中提到: 】
:
: 我用ResNet进行图像分类(由于我的图像比较小,所以模型的参数比论文上的少一些)
: 现在是在普通CPU上进行训练模型的,感觉比较慢,正在考虑是否花时间精力来改用GPU
: 训练模型
:
#发自zSMTH@GM1900
--
FROM 150.230.42.*