hive分区如何选择

水木社区手机版

主题:hive分区如何选择
10楼|zeus2615|2024-01-10 07:17:35|展开
他如果有不带时间戳的查询，你不管怎么分区都没用
【在 jimmycmh 的大作中提到: 】
: 按id检索，显然指的是where id = xxxx
: 如果你的检索date都是必选条件，那这点数据按天分区完全
:......

论坛助手,iPhone
--
FROM 180.158.5.*
11楼|zeus2615|2024-01-10 07:19:16|展开
确实完全没必要用hive，hive适合那种每天PB级查询本身也是批量的场景
【在 RickyDu 的大作中提到: 】
: 这点数据搞个clickhouse或者doris不是嗖嗖的，用啥hive

论坛助手,iPhone
--
FROM 180.158.5.*
12楼|zeus2615|2024-01-10 07:32:51|展开
你增加一列，把ID映射一下，譬如叫idhash，用天和idhash分区，让单个分区的大小至少进入G级别，查询时多带一个idhash的条件，读速度影响不大，毕竟你这数据太小了。写速度能上两个数量级。
或者就像其他人说的，换个适合你这小体量的OLAP数据库。
推荐你去看Oreilly《数据密集型应用系统设计》，其中关于索引的章节，它循序渐进的介绍了主流OLAP系统索引常见设计，为什么要这么做，不同设计的差异。最重要的是，能帮助理解在使用OLAP的时候该注意哪些技巧，譬如你正在面对的分区问题。中文版如果遇到看不懂的地方去读英文版，中文版比机翻好点但是不多。
【在 qianfeng018 的大作中提到: 】
: 2M大小的数据。不是200万数据
: 目前就是按天，按ID，
: 但一年365天

论坛助手,iPhone
--
FROM 180.158.5.*
19楼|zeus2615|2024-01-10 12:54:41|展开
大数据脱离时间，数据存储和索引就会有很大问题。
【在 jimmycmh 的大作中提到: 】
: 按ID分区就有用啊

论坛助手,iPhone
--
FROM 58.247.23.*