水木社区手机版
首页
|版面-Python的自由天空(Python)|
新版wap站已上线
返回
1/1
|
转到
主题:pandas.DataFrame 存成什么文件格式比较高效?
楼主
|
Madlee
|
2022-08-22 15:33:28
|
展开
DataFrame只保存数值,简单字符串和bool型,
要求:
1. 能跨语言(至少C++要能读),
2. 读写效率高
3. 能追加(不必须,有了最好)
4. 数据能压缩(不必须,有了最好。写的时候慢点不要紧,但读的时候效率不能有大影响)
现在我用的是csv,但是效率特别低,pickle不能用,因为C++不好读。
之前试过msgpack,效率还行,但是好像有版本不兼容的问题,升级版本后读出问题了。
还有什么值得推荐的吗?sqlite3? hdf5?
数据量单个csv在1~5G左右。
谢谢。
--
修改:Madlee FROM 222.67.194.*
FROM 222.67.194.*
7楼
|
Madlee
|
2022-08-24 13:06:01
|
展开
谢谢,这个看上去很棒。
【 在 xuanqing 的大作中提到: 】
: feather不错
: 空间占用和读写速度都还好
: 就是不知道c++好不好读入
: ...................
--
FROM 222.67.194.*
8楼
|
Madlee
|
2022-08-24 13:06:47
|
展开
谢谢,parquet好像比较好,我再比较一下。
【 在 maming 的大作中提到: 】
: df.to_* 一堆格式,满足你这个需求的应该不少,比如hdf5, parquet
:
https://pandas.pydata.org/pandas-docs/stable/reference/io.html
:
--
FROM 222.67.194.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版