方法1:可以把数据库里的10G数据导到数据库外,通过其他数据分析软件进行join groupby,单机内存足够大可以单机,不够的话可以spark或其他分布式系统
方法2:如果只是内连接的话,可以先把10G固定数据hash-split到若干个数据库实例(为加速可以分布到多台机器),然后把临时数据同样hash-split并上传到对应的数据库,接下来在多个数据库同时执行join-groupby,最后把多个数据库的结果合并
【 在 hongbaoshu 的大作中提到: 】
: 每天生成100G临时数据 需要和 数据库的10G固定数据做join groupby 计算,临时文件每次导入DB要很久用完还要删,有没有内存数据可以做到相同功能 导入很快呢?
--
FROM 221.218.209.*