- 主题:vertica导出query结果到parquet文件
用python读vertica再写入parquet文件太慢。
官方的vsql导出csv文件速度还可以,但是csv格式不如parquet好用。
官方有导出parquet功能,但是是server去写文件,有目录权限问题,如果vsql能支持client端导出为parquet就好了,咋办
--
FROM 68.196.98.*
try seatunnel
【 在 CrTn 的大作中提到: 】
: 用python读vertica再写入parquet文件太慢。
: 官方的vsql导出csv文件速度还可以,但是csv格式不如parquet好用。
: 官方有导出parquet功能,但是是server去写文件,有目录权限问题,如果vsql能支持
: client端导出为parquet就好了,咋办
: ...................
--
FROM 119.139.199.*
太重型了,来个轻量的
【 在 qlogic 的大作中提到: 】
: try seatunnel
:
--
FROM 68.196.98.*
你的parquet文件不是在hdfs吗?在的话,这个就算最轻量的吧。
或者用pyspark
read.format("jdbc")... wirte.format("parquet")
【 在 CrTn 的大作中提到: 】
: 太重型了,来个轻量的
--
FROM 119.139.199.*
不是,我要导出到本地ssd上
【 在 qlogic 的大作中提到: 】
: 你的parquet文件不是在hdfs吗?在的话,这个就算最轻量的吧。
: 或者用pyspark
: read.format("jdbc")... wirte.format("parquet")
: ...................
--
FROM 68.196.98.*