我不是很了解spark,但就Python来说,没有这种担忧,Python原生支持导入一个zip包,python包导入是不会重复导入的,除非你显示的要求重新导入
【 在 qianfeng018 的大作中提到: 】
:
: 自己写了个算法,算法所需的运行环境用conda打了个zip包,扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢? 这样每次运行还得解压,不是浪费时间吗?
: 不能提前把conda环境在hadoop上解压,每次直接运行吗?
:
#发自zSMTH@CDU.MP
--
FROM 117.23.183.*