hive的分区其实就是个目录。查询速度只取决要扫描的数据块个数和大小。和分区数多少没有绝对的关系,你当前的分区方式,查询肯定更快啊,但是快的有限,因为你的数据量太小了。但是写入速度肯定会慢很多
【 在 qianfeng018 的大作中提到: 】
: 标 题: Re: hive分区如何选择
: 发信站: 水木社区 (Tue Jan 9 11:47:42 2024), 站内
:
: 2M大小的数据。不是200万数据
:
: 目前就是按天,按ID,
:
: 但一年365天
: ID有3000多个
: 那一年就 365*3000=110万个分区, 感觉有点多
:
: 但如果只按天,或者只按ID分区
: 又怕检索起来,既有按天的检索又有按ID的检索,怕会慢
:
: 不知道分区太多对检索速度影响大,还是分区没有按天按ID,对检索影响大
: 如果差不多,就不折腾了。
:
: 【 在 eventvwr 的大作中提到: 】
: : 2M是200w数据还是数据文件只有2M大小?
: : 这点数据随便整吧。就按天吧,更符合使用习惯些
:
: --
: ※ 修改:·qianfeng018 于 Jan 9 11:48:19 2024 修改本文·[FROM: 223.104.41.*]
: ※ 来源:·水木社区
http://www.mysmth.net·[FROM: 223.104.41.*]
--
修改:qianfeng018 FROM 223.104.41.*
FROM 1.202.162.*