自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？

水木社区手机版

主题:自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
10楼|dyingsun|2024-02-05 15:31:19|展开
没用过pyspark，以前用过scala的，留下一点印象。

我的理解：
第一，分布式计算框架，是把分布式和单次计算两部分分开，这样有利于部署和运维。
第二、你担心的zip解压这个事，在这里根本不构成性能瓶颈，你的算法包才能多大，解压就是瞬间的事。需要搞这种分布式计算的，一般场景都是大规模计算，不是那种几秒钟就出结果的。用zip分发，在节点解压，可能是综合来看最经济的。
如果你的解压成为了性能瓶颈，那意味着你要用特定的方法去优化，包括你提到的办法。

【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
FROM 58.135.83.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版