复制片段,分割到n台机器上
然后各自locate到指定的位置开始刷,每台机多开几个应用
并行+1/n * N
【 在 chemphy123 的大作中提到: 】
: 标 题: 求问如何从10亿个字符串里快速取数据
: 发信站: 水木社区 (Sun May 12 22:10:50 2024), 站内
:
: 我有10亿个字符串,每个大概100个字符。
: 这些数据存磁盘上,gzip压缩后大概有18G。
:
: 需求是,一次按id号从中取20000个字符串出来。
: 这20000个id号是分散的,不集中。
:
: 我尝试了用h5py按hdf5格式存储和读取,试了多种途径,速度都比较慢,大概在3分钟左右。
: hdf5取连续的20000数据比较快,但是从10亿个数据里取分散的20000个数据就比较慢。
:
: 求问有没有好方法,快速取数据。
:
: 我隐隐约约觉得这是大数据查询里面常碰到的场景,求大神赐教
:
:
: --
: ※ 修改:·chemphy123 于 May 12 22:11:46 2024 修改本文·[FROM: 180.168.176.*]
: ※ 来源:·水木社区
http://www.mysmth.net·[FROM: 180.168.176.*]
--
修改:chemphy123 FROM 180.168.176.*
FROM 112.10.212.*