我有10亿个字符串,每个大概100个字符。
这些数据存磁盘上,gzip压缩后大概有18G。
需求是,一次按id号从中取20000个字符串出来。
这20000个id号是分散的,不集中。
我尝试了用h5py按hdf5格式存储和读取,试了多种途径,速度都比较慢,大概在3分钟左右。
hdf5取连续的20000数据比较快,但是从10亿个数据里取分散的20000个数据就比较慢。
求问有没有好方法,快速取数据。
我隐隐约约觉得这是大数据查询里面常碰到的场景,求大神赐教
--
修改:chemphy123 FROM 180.168.176.*
FROM 180.168.176.*