hadoop是分布式块存储设备,每一个块大小是64M(不太记得了,可以调的)。
你直接丢个文件夹进去,会导致浪费大量的存储空间。
放hadoop上是为了分发环境到各个spark节点上,避免某些节点没有python环境。如果你确保所有的spark上都安装了环境且该有的lib都有,就没必要搞这个步骤。
一般是在spark上都整上统一个python环境,把必要的库都整上。最后你直接算法用到的但是节点上没装的lib打包zip上传hadoop,再加上你的py文件。
至于你想要解压好,不要考虑hadoop了,nfs理论上能行,但是我没这个干过,不知道实际如何。
【 在 qianfeng018 的大作中提到: 】
: 自己写了个算法,算法所需的运行环境用conda打了个zip包,扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢? 这样每次运行还得解压,不是浪费时间吗?
: 不能提前把conda环境在hadoop上解压,每次直接运行吗?
: ...................
--
修改:lokta FROM 39.144.228.*
FROM 39.144.228.*