自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？

水木社区手机版

主题:自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
23楼|lokta|2024-02-19 16:34:51|展开
hadoop是分布式块存储设备，每一个块大小是64M(不太记得了，可以调的)。
你直接丢个文件夹进去，会导致浪费大量的存储空间。

放hadoop上是为了分发环境到各个spark节点上，避免某些节点没有python环境。如果你确保所有的spark上都安装了环境且该有的lib都有，就没必要搞这个步骤。

一般是在spark上都整上统一个python环境，把必要的库都整上。最后你直接算法用到的但是节点上没装的lib打包zip上传hadoop，再加上你的py文件。

至于你想要解压好，不要考虑hadoop了，nfs理论上能行，但是我没这个干过，不知道实际如何。

【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
修改:lokta FROM 39.144.228.*
FROM 39.144.228.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版