没用过pyspark,以前用过scala的,留下一点印象。
我的理解:
第一,分布式计算框架,是把分布式和单次计算两部分分开,这样有利于部署和运维。
第二、你担心的zip解压这个事,在这里根本不构成性能瓶颈,你的算法包才能多大,解压就是瞬间的事。需要搞这种分布式计算的,一般场景都是大规模计算,不是那种几秒钟就出结果的。用zip分发,在节点解压,可能是综合来看最经济的。
如果你的解压成为了性能瓶颈,那意味着你要用特定的方法去优化,包括你提到的办法。
【 在 qianfeng018 的大作中提到: 】
: 自己写了个算法,算法所需的运行环境用conda打了个zip包,扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢? 这样每次运行还得解压,不是浪费时间吗?
: 不能提前把conda环境在hadoop上解压,每次直接运行吗?
: ...................
--
FROM 58.135.83.*