where date = 20240109 and id = xxxxxx
这个咋会扫描所有的数据呢?无论是hive还是sparksql都不会扫描所有的数据吧
【 在 jimmycmh 的大作中提到: 】
: 标 题: Re: hive分区如何选择
: 发信站: 水木社区 (Tue Jan 9 18:01:47 2024), 站内
:
: 不完全准确,分区key的选择以及分区数决定了查询时扫描的数据数量
:
: 楼主这个,按天分区,然后按id检索,是要扫描所有数据的
:
: 所以,还是要衡量一下每种检索的频次、响应时间需求等
:
: 不过既然数据量不太多,按月和id联合起来分区,应该能平衡吧
:
: 【 在 eventvwr 的大作中提到: 】
: : hive的分区其实就是个目录。查询速度只取决要扫描的数据块个数和大小。和分区数多少没有绝对的关系,你当前的分区方式,查询肯定更快啊,但是快的有限,因为你的数据量太小了。但是写入速度肯定会慢很多
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 124.126.1.*]
--
FROM 1.202.162.*