如果你的盘读是500MB/S 一个CSV 读进来 就要10 秒了
如果压缩 就算能压到 1/10, 解开 内存要8GB 了吧
整个DataFrame 要10GB了? 你随便一个分表 查询等操作 再占几个G ? 一个全表排序,要冻系统几十秒?
追加的话 在文件系统里 要打开文件 在末尾 加入更多的内容
如果有可能 也许可以按行数 分成多个文件 对应多个子表 手工顺序调入 追加只发生在单个文件里 ?
【 在 Madlee 的大作中提到: 】
: 4. 数据能压缩(不必须,有了最好。写的时候慢点不要紧,但读的时候效率不能有大影响)
: 现在我用的是csv,但是效率特别低,pickle不能用,因为C++不好读。
: 数据量单个csv在1~5G左右。
: ...................
--
FROM 47.144.172.*