自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？

水木社区手机版

展开|楼主|同主题展开|返回

上一篇|下一篇|同主题下篇

主题:自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
qianfeng018|2024-02-05 12:11:34|
自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
不能提前把conda环境在hadoop上解压，每次直接运行吗？

命令：
spark-submit --master yarn \
    --deploy-mode cluster   \
    --num-executors=8  \
    --executor-memory=10g  \
    --executor-cores=2  \
    --driver-memory=4g  \
    --conf spark.pyspark.python=./scoenv/scoenv/bin/python3.6   \
    --archives hdfs:/user/xx/xx//scoenv.zip#scoenv  \
    --py-files demo.zip spark_driver.py xxx
--
FROM 223.104.40.*

上一篇|下一篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版