自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？

水木社区手机版

主题:自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
20楼|qianfeng018|2024-02-19 09:24:13|只看此ID
不是算法包的解压，算法包那一点还没有什么问题，是算法运行环境每次解压。一个conda环境，快10G了。

【在 dyingsun 的大作中提到: 】
: 没用过pyspark，以前用过scala的，留下一点印象。
: 我的理解：
: 第一，分布式计算框架，是把分布式和单次计算两部分分开，这样有利于部署和运维。
: ...................
--
FROM 223.104.40.*
21楼|qianfeng018|2024-02-19 09:24:59|只看此ID
哎，运维被裁员了，被迫去做运维的工作

【在 flw 的大作中提到: 】
: 「比较稳定」、「不会变化」
: 这本身就很武断。
: 不了解贵司的职责划分，
: ...................
--
FROM 223.104.40.*
22楼|qianfeng018|2024-02-19 09:27:19|只看此ID
conda运行环境快10个G了
确实每个模型的运行时长不太长，短的1分钟，长的不到20分钟，确实感觉可以不上hadoop。不过遗留架构，不敢随便改

【在 YYW 的大作中提到: 】
: 我的hadoop知识比较老旧，如果有讲错的请不吝赐教：
: 1. 如果把算法环境部署到每一个data node上，其实破坏了节点环境的独立性，它应该普遍适用于业务的计算要求，不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则，多用户、多任务就不可控。
: 2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的，块的大小可以设置，比如128M。一个大文件会拆分为若干128M的块，存储在各data node上，分块的信息、存储在哪里，类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上，会浪费
: ...................
--
FROM 223.104.40.*
23楼|lokta|2024-02-19 16:34:51|只看此ID
hadoop是分布式块存储设备，每一个块大小是64M(不太记得了，可以调的)。
你直接丢个文件夹进去，会导致浪费大量的存储空间。

放hadoop上是为了分发环境到各个spark节点上，避免某些节点没有python环境。如果你确保所有的spark上都安装了环境且该有的lib都有，就没必要搞这个步骤。

一般是在spark上都整上统一个python环境，把必要的库都整上。最后你直接算法用到的但是节点上没装的lib打包zip上传hadoop，再加上你的py文件。

至于你想要解压好，不要考虑hadoop了，nfs理论上能行，但是我没这个干过，不知道实际如何。

【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
修改:lokta FROM 39.144.228.*
FROM 39.144.228.*
24楼|Loveni|2024-02-19 21:39:28|只看此ID
如果你的集群就是为了干这个，那么是可以的，到每个节点上部署一下就行了。
不用听别人扯淡。

【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
FROM 114.251.196.*
25楼|Loveni|2024-02-19 21:41:31|只看此ID
部署到了一个特殊路径下，后续需要升级维护方便。
命令行里显式指定路径就ok。

【在 qianfeng018 的大作中提到: 】
: 不是情绪大于规则。而是像我说的这种场景：各类环境比较稳定，不会变化
: 这种情况是否是解压后的环境直接用，效率更高？而且不会引起其他问题
--
FROM 114.251.196.*
26楼|xWvxYWYxvWx|2024-02-23 14:26:14|只看此ID
多大的事啊，改用 Scala 写就完全不用 zip 包了。

【在 qianfeng018 的大作中提到: 】
: 标  题: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
: 发信站: 水木社区 (Mon Feb  5 12:11:34 2024), 转信
:
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
:
: 命令：
: spark-submit --master yarn \
:     --deploy-mode cluster   \
:     --num-executors=8  \
:     --executor-memory=10g  \
:     --executor-cores=2  \
:     --driver-memory=4g  \
:     --conf spark.pyspark.python=./scoenv/scoenv/bin/python3.6   \
:     --archives hdfs:/user/xx/xx//scoenv.zip#scoenv  \
:     --py-files demo.zip spark_driver.py xxx
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.40.*]
--
FROM 14.112.5.*
27楼|YYW|2024-02-23 22:43:36|只看此ID
完整的conda环境，确实不能不打包放hdfs，是灾难...

如果集群是你负责的话，可以考虑直接将相应环境部署到所有data node的特殊路径下，路径或配置文件包含必要的名称（用途）、版本等信息，便于后续区分不同用途、不同版本的环境。

【在 qianfeng018 的大作中提到: 】
: 标题: Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上
: 发信站: 水木社区 (Mon Feb 19 09:27:19 2024), 转信
:
: conda运行环境快10个G了
: 确实每个模型的运行时长不太长，短的1分钟，长的不到20分钟，确实感觉可以不上hadoop。不过遗留架构，不敢随便改
:
: 【在 YYW 的大作中提到: 】
: : 我的hadoop知识比较老旧，如果有讲错的请不吝赐教：
: : 1. 如果把算法环境部署到每一个data node上，其实破坏了节点环境的独立性，它应该普遍适用于业务的计算要求，不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则，多用户、多任务就不可控。
: : 2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的，块的大小可以设置，比如128M。一个大文件会拆分为若干128M的块，存储在各data node上，分块的信息、存储在哪里，类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上，会浪费
: : ...................
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.40.*]
--
FROM 222.129.135.*
28楼|JulyClyde|2024-02-24 18:48:58|只看此ID
在有些人眼里，另一些人根本就不是人
【在 iMx 的大作中提到: 】
: 问题在于每次都解压而不是遇到问题了再解压
: 有人的想省事，另外的人承担代价
--
FROM 139.227.19.*