磁盘啥方案都无解,瓶颈在io
要想快,全load内存
内存不够要么加,要么上集群
如果成本hold不住,就忍
还是取决于你的需求,如果qps很大,只能加钱
【 在 chemphy123 的大作中提到: 】
: 标 题: 求问如何从10亿个字符串里快速取数据
: 发信站: 水木社区 (Sun May 12 22:10:50 2024), 站内
:
: 我有10亿个字符串,每个大概100个字符。
: 这些数据存磁盘上,gzip压缩后大概有18G。
:
: 需求是,一次按id号从中取20000个字符串出来。
: 这20000个id号是分散的,不集中。
:
: 我尝试了用h5py按hdf5格式存储和读取,试了多种途径,速度都比较慢,大概在3分钟左右。
: hdf5取连续的20000数据比较快,但是从10亿个数据里取分散的20000个数据就比较慢。
:
: 求问有没有好方法,快速取数据。
:
: 我隐隐约约觉得这是大数据查询里面常碰到的场景,求大神赐教
:
:
: --
: ※ 修改:·chemphy123 于 May 12 22:11:46 2024 修改本文·[FROM: 180.168.176.*]
: ※ 来源:·水木社区
http://www.mysmth.net·[FROM: 180.168.176.*]
--
修改:chemphy123 FROM 180.168.176.*
FROM 114.252.106.*