自己写了个算法,算法所需的运行环境用conda打了个zip包,扔到了hadoop上。在spark上运行用如下命令。
这里为什么是个zip包呢? 这样每次运行还得解压,不是浪费时间吗?
不能提前把conda环境在hadoop上解压,每次直接运行吗?
命令:
spark-submit --master yarn \
--deploy-mode cluster \
--num-executors=8 \
--executor-memory=10g \
--executor-cores=2 \
--driver-memory=4g \
--conf spark.pyspark.python=./scoenv/scoenv/bin/python3.6 \
--archives hdfs:/user/xx/xx//scoenv.zip#scoenv \
--py-files demo.zip spark_driver.py xxx
--
FROM 223.104.40.*