自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？

水木社区手机版

主题:自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
10楼|dyingsun|2024-02-05 15:31:19|只看此ID
没用过pyspark，以前用过scala的，留下一点印象。

我的理解：
第一，分布式计算框架，是把分布式和单次计算两部分分开，这样有利于部署和运维。
第二、你担心的zip解压这个事，在这里根本不构成性能瓶颈，你的算法包才能多大，解压就是瞬间的事。需要搞这种分布式计算的，一般场景都是大规模计算，不是那种几秒钟就出结果的。用zip分发，在节点解压，可能是综合来看最经济的。
如果你的解压成为了性能瓶颈，那意味着你要用特定的方法去优化，包括你提到的办法。

【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
FROM 58.135.83.*
11楼|flw|2024-02-05 20:26:49|只看此ID
「比较稳定」、「不会变化」
这本身就很武断。
不了解贵司的职责划分，
在许多公司下这个结论本身是需要权限的。
有些情况下这么说话会冒犯到运维，让运维感觉他的工作不被重视。

【在 qianfeng018 的大作中提到: 】
: 不是情绪大于规则。而是像我说的这种场景：各类环境比较稳定，不会变化
: 这种情况是否是解压后的环境直接用，效率更高？而且不会引起其他问题
--
修改:flw FROM 27.38.228.*
FROM 27.38.228.*
12楼|dormouseBHU|2024-02-05 22:59:05|只看此ID
zip也可以不压缩…
不压缩的话就只是把文件打包，和tar差不多。就不需要解压这个过程，需要什么直接从zip文件里读就行。
【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
FROM 123.113.227.*
13楼|JulyClyde|2024-02-06 15:04:12|只看此ID
【在 flw 的大作中提到: 】
: 「比较稳定」、「不会变化」
: 这本身就很武断。
: 不了解贵司的职责划分，
: 在许多公司下这个结论本身是需要权限的。
: 有些情况下这么说话会冒犯到运维，让运维感觉他的工作不被重视。
一般来说让运维擦屁股才会让运维感觉不受重视
参加前期计划、避免事故发生才是真正的职责
--
FROM 139.227.19.*
14楼|kerberos|2024-02-06 19:18:25|只看此ID
运维方便
【在 qianfeng018 (疯子) 的大作中提到: 】
: 发信人: qianfeng018 (疯子), 信区: Python
:  标  题: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
:  发信站: 水木社区 (Mon Feb  5 12:11:34 2024), 转信
:
--
FROM 222.128.187.*
15楼|YYW|2024-02-08 01:40:05|只看此ID
我的hadoop知识比较老旧，如果有讲错的请不吝赐教：

1. 如果把算法环境部署到每一个data node上，其实破坏了节点环境的独立性，它应该普遍适用于业务的计算要求，不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则，多用户、多任务就不可控。

2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的，块的大小可以设置，比如128M。一个大文件会拆分为若干128M的块，存储在各data node上，分块的信息、存储在哪里，类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上，会浪费
name node大量内存。

3. hdfs的每个文件块的份数是可设置的，但不会在每个节点上都有。大量小文件的访问，意味着计算程序需要频繁访问其他data node上的数据，这个成本远远高于每个data node下载一个zip（没几块）再解压缩。

4. 一般情况下，计算的运行时间会远高于下载一个算法zip并解压缩，如果不是，可能都没必要用hadoop来算。

【在 qianfeng018 的大作中提到: 】
: 标  题: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上？
: 发信站: 水木社区 (Mon Feb  5 12:11:34 2024), 转信
:
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
:
: 命令：
: spark-submit --master yarn \
:     --deploy-mode cluster   \
:     --num-executors=8  \
:     --executor-memory=10g  \
:     --executor-cores=2  \
:     --driver-memory=4g  \
:     --conf spark.pyspark.python=./scoenv/scoenv/bin/python3.6   \
:     --archives hdfs:/user/xx/xx//scoenv.zip#scoenv  \
:     --py-files demo.zip spark_driver.py xxx
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.40.*]
--
FROM 222.129.135.*
16楼|gfkid|2024-02-08 08:25:47|只看此ID
有这个时间，不如优化一下你的算法

spark本来就巨慢无比，不需要关心zip包解压
【在 qianfeng018 的大作中提到: 】
: 自己写了个算法，算法所需的运行环境用conda打了个zip包，扔到了hadoop上。在spark上运行用如下命令。
: 这里为什么是个zip包呢？这样每次运行还得解压，不是浪费时间吗？
: 不能提前把conda环境在hadoop上解压，每次直接运行吗？
: ...................
--
FROM 114.249.21.*
17楼|KnightZorro|2024-02-12 08:53:18|只看此ID
打包的目的是让这个spark程序自包含, 设想下如果多个文件多个版本, 就会乱套了
--
FROM 43.206.234.*
18楼|iMx|2024-02-13 19:25:10|只看此ID
问题在于每次都解压而不是遇到问题了再解压
有人的想省事，另外的人承担代价

【在 KnightZorro 的大作中提到: 】
: 打包的目的是让这个spark程序自包含, 设想下如果多个文件多个版本, 就会乱套了
--
FROM 219.136.130.*
19楼|KnightZorro|2024-02-18 20:02:56|只看此ID
编译的时候是编译工具打包, 运行的时候是运行时解压, 有啥难受的?
对于打包工具来说, 它能看到的只是要打包的资源列表而已, 并不需要知道应用是如何使用的.

【在 iMx 的大作中提到: 】
: 问题在于每次都解压而不是遇到问题了再解压
: 有人的想省事，另外的人承担代价
:
--
FROM 43.206.234.*