hive分区如何选择

水木社区手机版

主题:hive分区如何选择
楼主|qianfeng018|2024-01-08 15:33:37|只看此ID
请教大家：
hive表，有按天、按ID查询的需求，所以按天，按ID建立了分区。
每个分区存储的数据只有2M。这样的话，感觉会有小文件问题。
但确实有按天、按ID的查询需求，所以不知道怎么去建立分区，读取效率会更高？
--
FROM 223.104.41.*
1楼|eventvwr|2024-01-08 15:54:11|只看此ID
2M是200w数据还是数据文件只有2M大小？
这点数据随便整吧。就按天吧，更符合使用习惯些
【在 qianfeng018 的大作中提到: 】
: 标题: hive分区如何选择
: 发信站: 水木社区 (Mon Jan 8 15:33:37 2024), 站内
:
: 请教大家：
: hive表，有按天、按ID查询的需求，所以按天，按ID建立了分区。
: 每个分区存储的数据只有2M。这样的话，感觉会有小文件问题。
: 但确实有按天、按ID的查询需求，所以不知道怎么去建立分区，读取效率会更高？
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
--
FROM 1.202.162.*
2楼|qianfeng018|2024-01-09 11:47:42|只看此ID
2M大小的数据。不是200万数据

目前就是按天，按ID，

但一年365天
ID有3000多个
那一年就 365*3000=110万个分区，感觉有点多

但如果只按天，或者只按ID分区
又怕检索起来，既有按天的检索又有按ID的检索，怕会慢

不知道分区太多对检索速度影响大，还是分区没有按天按ID，对检索影响大
如果差不多，就不折腾了。

【在 eventvwr 的大作中提到: 】
: 2M是200w数据还是数据文件只有2M大小？
: 这点数据随便整吧。就按天吧，更符合使用习惯些
--
修改:qianfeng018 FROM 223.104.41.*
FROM 223.104.41.*
3楼|cestlavie|2024-01-09 11:51:45|只看此ID
一般来说是按天，然后写数据时候尽量distribute by/sort by 让同样的ID分布在一起
【在 qianfeng018 的大作中提到: 】
: 请教大家：
: hive表，有按天、按ID查询的需求，所以按天，按ID建立了分区。
: 每个分区存储的数据只有2M。这样的话，感觉会有小文件问题。
: ...................
--
FROM 61.50.105.*
4楼|eventvwr|2024-01-09 13:50:08|只看此ID
hive的分区其实就是个目录。查询速度只取决要扫描的数据块个数和大小。和分区数多少没有绝对的关系，你当前的分区方式，查询肯定更快啊，但是快的有限，因为你的数据量太小了。但是写入速度肯定会慢很多
【在 qianfeng018 的大作中提到: 】
: 标  题: Re: hive分区如何选择
: 发信站: 水木社区 (Tue Jan  9 11:47:42 2024), 站内
:
: 2M大小的数据。不是200万数据
:
: 目前就是按天，按ID，
:
: 但一年365天
: ID有3000多个
: 那一年就 365*3000=110万个分区，感觉有点多
:
: 但如果只按天，或者只按ID分区
: 又怕检索起来，既有按天的检索又有按ID的检索，怕会慢
:
: 不知道分区太多对检索速度影响大，还是分区没有按天按ID，对检索影响大
: 如果差不多，就不折腾了。
:
: 【在 eventvwr 的大作中提到: 】
: : 2M是200w数据还是数据文件只有2M大小？
: : 这点数据随便整吧。就按天吧，更符合使用习惯些
:
: --
: ※ 修改:·qianfeng018 于 Jan  9 11:48:19 2024 修改本文·[FROM: 223.104.41.*]
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.41.*]
--
修改:qianfeng018 FROM 223.104.41.*
FROM 1.202.162.*
5楼|qianfeng018|2024-01-09 14:10:30|只看此ID
收到。明白了
确实写入速度很慢，不过写入的性能要求比较低，不影响使用感受。

【在 eventvwr 的大作中提到: 】
: hive的分区其实就是个目录。查询速度只取决要扫描的数据块个数和大小。和分区数多少没有绝对的关系，你当前的分区方式，查询肯定更快啊，但是快的有限，因为你的数据量太小了。但是写入速度肯定会慢很多
--
FROM 223.104.41.*
6楼|jimmycmh|2024-01-09 17:55:27|只看此ID
不完全准确，分区key的选择以及分区数决定了查询时扫描的数据数量

楼主这个，按天分区，然后按id检索，是要扫描所有数据的

所以，还是要衡量一下每种检索的频次、响应时间需求等

不过既然数据量不太多，按月和id联合起来分区，应该能平衡吧

【在 eventvwr 的大作中提到: 】
: hive的分区其实就是个目录。查询速度只取决要扫描的数据块个数和大小。和分区数多少没有绝对的关系，你当前的分区方式，查询肯定更快啊，但是快的有限，因为你的数据量太小了。但是写入速度肯定会慢很多
--
FROM 124.126.1.*
7楼|eventvwr|2024-01-09 19:35:30|只看此ID
where date = 20240109 and id = xxxxxx
这个咋会扫描所有的数据呢？无论是hive还是sparksql都不会扫描所有的数据吧
【在 jimmycmh 的大作中提到: 】
: 标题: Re: hive分区如何选择
: 发信站: 水木社区 (Tue Jan 9 18:01:47 2024), 站内
:
: 不完全准确，分区key的选择以及分区数决定了查询时扫描的数据数量
:
: 楼主这个，按天分区，然后按id检索，是要扫描所有数据的
:
: 所以，还是要衡量一下每种检索的频次、响应时间需求等
:
: 不过既然数据量不太多，按月和id联合起来分区，应该能平衡吧
:
: 【在 eventvwr 的大作中提到: 】
: : hive的分区其实就是个目录。查询速度只取决要扫描的数据块个数和大小。和分区数多少没有绝对的关系，你当前的分区方式，查询肯定更快啊，但是快的有限，因为你的数据量太小了。但是写入速度肯定会慢很多
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 124.126.1.*]
--
FROM 1.202.162.*
8楼|RickyDu|2024-01-09 20:54:11|只看此ID
这点数据搞个clickhouse或者doris不是嗖嗖的，用啥hive

【在 qianfeng018 (疯子) 的大作中提到: 】
:  请教大家：
:  hive表，有按天、按ID查询的需求，所以按天，按ID建立了分区。
:  每个分区存储的数据只有2M。这样的话，感觉会有小文件问题。
:  但确实有按天、按ID的查询需求，所以不知道怎么去建立分区，读取效率会更高？
--
FROM 114.254.1.*
9楼|jimmycmh|2024-01-10 00:51:58|只看此ID
按id检索，显然指的是where id = xxxx

如果你的检索date都是必选条件，那这点数据按天分区完全够用

【在 eventvwr 的大作中提到: 】
: where date = 20240109 and id = xxxxxx
: 这个咋会扫描所有的数据呢？无论是hive还是sparksql都不会扫描所有的数据吧
--
FROM 124.126.1.*