请问有没有带JOIN GROUP功能的内存数据库

水木社区手机版

主题:请问有没有带JOIN GROUP功能的内存数据库
楼主|hongbaoshu|2022-01-05 08:49:51|只看此ID
每天生成100G临时数据需要和数据库的10G固定数据做join groupby 计算，临时文件每次导入DB要很久用完还要删，有没有内存数据可以做到相同功能导入很快呢？
--
FROM 124.207.9.*
1楼|wudashu|2022-01-05 12:54:59|只看此ID
瓶颈在IO吗?
PCIE4的ssd怎么样，单盘写入5~7G/s
或者ramdisk?
【在 hongbaoshu 的大作中提到: 】
: 每天生成100G临时数据需要和数据库的10G固定数据做join groupby 计算，临时文件每次导入DB要很久用完还要删，有没有内存数据可以做到相同功能导入很快呢？
: --
:

发自「今日水木 on Android」
--
FROM 124.64.22.*
2楼|hongbaoshu|2022-01-05 13:34:37|只看此ID
不是IO吧因为数据走网络，100G数据 0.1G/s 也就1000sec，20分钟。现在数据库写入就要3小时

【在 wudashu 的大作中提到: 】
: 瓶颈在IO吗?
: PCIE4的ssd怎么样，单盘写入5~7G/s
: 或者ramdisk?
: ...................
--
FROM 124.207.9.*
3楼|wudashu|2022-01-05 16:02:59|只看此ID
把数据库放本地? 有条件也可以上万兆网卡。
【在 hongbaoshu 的大作中提到: 】
: 不是IO吧因为数据走网络，100G数据 0.1G/s 也就1000sec，20分钟。现在数据库写入就要3小时
: --

发自「今日水木 on Android」
--
FROM 124.64.22.*
4楼|Madlee|2022-01-06 17:29:10|只看此ID
sqlite，自带:memory:选项。
--
FROM 101.88.152.*
5楼|Bernstein|2022-01-11 00:52:27|只看此ID
方法1：可以把数据库里的10G数据导到数据库外，通过其他数据分析软件进行join groupby，单机内存足够大可以单机，不够的话可以spark或其他分布式系统

方法2：如果只是内连接的话，可以先把10G固定数据hash-split到若干个数据库实例（为加速可以分布到多台机器），然后把临时数据同样hash-split并上传到对应的数据库，接下来在多个数据库同时执行join-groupby，最后把多个数据库的结果合并

【在 hongbaoshu 的大作中提到: 】
: 每天生成100G临时数据需要和数据库的10G固定数据做join groupby 计算，临时文件每次导入DB要很久用完还要删，有没有内存数据可以做到相同功能导入很快呢？
--
FROM 221.218.209.*
6楼|lixunhuansk|2022-01-29 11:08:25|只看此ID
现在用的什么数据库?
把事务隔离级别调到最低.
数据库存储换SSD.
数据提前预处理下.
内存做Split 然后join groupby
【在 hongbaoshu 的大作中提到: 】
: 每天生成100G临时数据需要和数据库的10G固定数据做join groupby 计算，临时文件每次导入DB要很久用完还要删，有没有内存数据可以做到相同功能导入很快呢？
--
FROM 49.7.47.*
7楼|hongbaoshu|2022-01-29 22:46:20|只看此ID
现在是sqlserver 目前方案是把纵表转成大宽表减少条数

【在 lixunhuansk 的大作中提到: 】
: 现在用的什么数据库?
: 把事务隔离级别调到最低.
: 数据库存储换SSD.
: ...................
--
FROM 123.113.226.*
8楼|hongbaoshu|2022-01-29 22:48:58|只看此ID
把条数从亿减少到百万，但是写入和join还是要10分钟不知道业界有没有更快的方案

【在 lixunhuansk 的大作中提到: 】
: 现在用的什么数据库?
: 把事务隔离级别调到最低.
: 数据库存储换SSD.
: ...................
--
FROM 123.113.226.*
9楼|lixunhuansk|2022-01-29 23:49:39|只看此ID
那你要给出更多明确的信息.
无非单机优化集群优化.
越是有效果的优化, 越针对具体问题.

【在 hongbaoshu 的大作中提到: 】
: 把条数从亿减少到百万，但是写入和join还是要10分钟不知道业界有没有更快的方案
:
--
FROM 49.7.47.*