这些数据集是否有必要放到vcs系统上呢?
我这里一般原则是,只有经常需要修改的数据,才会纳入版本控制。
尤其是大文件,会认真评估加入版本库的必要性,很多这类数据只要放到网盘里就行了。
还有一点,很多大文件看着很大,实际上有用信息非常少,7z一压缩就没多少了,这种
我都会压缩以后提交到版本库,虽然仓库节约不了多少空间,但是可以省带宽,减少签
出时间。
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: 我这个repo的例子肯定是学生把部分测试集和训练好的权重都传git上去了。
: 权重一般一个文件就有500M了。
: 总之搞ai是这样的,1G大概是1分钱的样子,只是个最小单位...再过2年1T作为最小单位我都不奇怪。比如现在光一个cuda库就要3G了,cudnn库要1.5G,pytorch或者tensorflow框架要2G...这些尼玛基本都是纯c代码啊...反正我是不知道怎么弄出来的...
: ...................
--
修改:spadger FROM 222.90.31.*
FROM 222.90.31.*