【 在 qianfeng018 的大作中提到: 】
: 自己写了个算法,算法所需的运行环境用conda打了个zip包,扔到了hadoop上。在
: spark上运行用如下命令。
: 这里为什么是个zip包呢? 这样每次运行还得解压,不是浪费时间吗?
: 不能提前把conda环境在hadoop上解压,每次直接运行吗?
你这样就是把集群管理系统和被运行的应用程序的边界打破了
: 命令:
: spark-submit --master yarn \
: --deploy-mode cluster \
: --num-executors=8 \
: --executor-memory=10g \
: --executor-cores=2 \
: --driver-memory=4g \
: --conf spark.pyspark.python=./scoenv/scoenv/bin/python3.6 \
: --archives hdfs:/user/xx/xx//scoenv.zip#scoenv \
: --py-files demo.zip spark_driver.py xxx
--
FROM 139.227.19.*