- 主题:pandas.DataFrame 存成什么文件格式比较高效?
DataFrame只保存数值,简单字符串和bool型,
要求:
1. 能跨语言(至少C++要能读),
2. 读写效率高
3. 能追加(不必须,有了最好)
4. 数据能压缩(不必须,有了最好。写的时候慢点不要紧,但读的时候效率不能有大影响)
现在我用的是csv,但是效率特别低,pickle不能用,因为C++不好读。
之前试过msgpack,效率还行,但是好像有版本不兼容的问题,升级版本后读出问题了。
还有什么值得推荐的吗?sqlite3? hdf5?
数据量单个csv在1~5G左右。
谢谢。
--
修改:Madlee FROM 222.67.194.*
FROM 222.67.194.*
hdf5
【 在 Madlee 的大作中提到: 】
: DataFrame只保存数值,简单字符串和bool型,
: 要求:
: 1. 能跨语言(至少C++要能读),
: ...................
--
FROM 58.33.81.*
sqlite很好
【 在 Madlee 的大作中提到: 】
: DataFrame只保存数值,简单字符串和bool型,
: 要求:
: 1. 能跨语言(至少C++要能读),
: ...................
--
FROM 106.39.50.*
硬盘吃不住
【 在 Qlala 的大作中提到: 】
: sqlite很好
--
FROM 101.93.164.*
有自带函数pandas.DataFrame.to_json
--
FROM 171.88.97.*
feather不错
空间占用和读写速度都还好
就是不知道c++好不好读入
【 在 Madlee 的大作中提到: 】
: DataFrame只保存数值,简单字符串和bool型,
: 要求:
: 1. 能跨语言(至少C++要能读),
: ...................
--
FROM 222.131.24.*
df.to_* 一堆格式,满足你这个需求的应该不少,比如hdf5, parquet
https://pandas.pydata.org/pandas-docs/stable/reference/io.html
【 在 Madlee 的大作中提到: 】
: DataFrame只保存数值,简单字符串和bool型,
: 要求:
: 1. 能跨语言(至少C++要能读),
: ...................
--
FROM 124.126.138.*
谢谢,这个看上去很棒。
【 在 xuanqing 的大作中提到: 】
: feather不错
: 空间占用和读写速度都还好
: 就是不知道c++好不好读入
: ...................
--
FROM 222.67.194.*
parquet,背后是apache arrow,跨语言,二进制,自带压缩
【 在 Madlee 的大作中提到: 】
: DataFrame只保存数值,简单字符串和bool型,
: 要求:
: 1. 能跨语言(至少C++要能读),
: ...................
--
FROM 114.249.195.*