我这个repo的例子肯定是学生把部分测试集和训练好的权重都传git上去了。
权重一般一个文件就有500M了。
总之搞ai是这样的,1G大概是1分钱的样子,只是个最小单位...再过2年1T作为最小单位我都不奇怪。比如现在光一个cuda库就要3G了,cudnn库要1.5G,pytorch或者tensorflow框架要2G...这些尼玛基本都是纯c代码啊...反正我是不知道怎么弄出来的...
然后这些东西版本之间都有小版本号强依赖,差0.1都不行。导致要准备a个cuda版本,b个pytorch/tensorflow版本,c个用户,d台机器,根据情况切换。这样a×b×c×d一搞实在是伤不起...
然后数据集动不动就上百G,最近有个学生给我搞了个500G的数据集,一天内把我梯子的带宽给干完了...
数据集的消耗大概是c×d的形式,我是要求他们尽可能共享了,但架不住他们图方便不听我话...
客户那产生数据的速度也很快,比如我现在有10个节点在客户那收集数据。每个节点1Tssd + 2T机械盘,按目前容量的消耗速度估计大概能撑30天吧。全收回来一个月就是30T...即使最后筛选之后大幅压缩,我最起码也要先存下来才能筛一遍的,这还只是10个节点...根本不够覆盖各种情况,我是还想着要弄到100个节点的...
主要是我们还是太小,对于大厂来说存储都是pb起步,ai算力都堆到1exa了。我们这玩的规模在大厂眼里就是个小玩具...最后,你说的没错...可能写的用来真正干活的代码只有几个屏幕,这就是ai时代。用马斯克的话来说,ai在不断的吃掉人类用c/c++写出来的代码。我作为一个小学学各种算法,初中就去过冬令营的前算法大师,我现在也缴械投降了,我现在完全拥抱ai,并逐步用ai去替换一切我写的各种算法,welcome to the future。
【 在 dismoon 的大作中提到: 】
: 我就估摸着,你们这帮做软件的,一点代码哪儿来上GB的容量啊?
: 我一个产品,3D图纸,PCB,机械加工图纸,工艺文件,固件代码,生产流程文档全部加起来,一个产品最多也就400个MB,你们是天顶星来的吗?
:
--
修改:lvsoft FROM 180.158.58.*
FROM 180.158.58.*