Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上
JulyClyde|2024-02-05 12:13:09|
【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在
: spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
你这样就是把集群管理系统和被运行的应用程序的边界打破了
: 命令：
: spark-submit --master yarn \
:     --deploy-mode cluster   \
:     --num-executors=8  \
:     --executor-memory=10g  \
:     --executor-cores=2  \
:     --driver-memory=4g  \
:     --conf spark.pyspark.python=./scoenv/scoenv/bin/python3.6   \
:     --archives hdfs:/user/xx/xx//scoenv.zip#scoenv  \
:     --py-files demo.zip spark_driver.py xxx
--
FROM 139.227.19.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版