Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上
YYW|2024-02-23 22:43:36|
完整的conda环境，确实不能不打包放hdfs，是灾难...

如果集群是你负责的话，可以考虑直接将相应环境部署到所有data node的特殊路径下，路径或配置文件包含必要的名称（用途）、版本等信息，便于后续区分不同用途、不同版本的环境。

【在 qianfeng018 的大作中提到: 】
: 标题: Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上
: 发信站: 水木社区 (Mon Feb 19 09:27:19 2024), 转信
:
: conda运行环境快10个G了
: 确实每个模型的运行时长不太长，短的1分钟，长的不到20分钟，确实感觉可以不上hadoop。不过遗留架构，不敢随便改
:
: 【在 YYW 的大作中提到: 】
: : 我的hadoop知识比较老旧，如果有讲错的请不吝赐教：
: : 1. 如果把算法环境部署到每一个data node上，其实破坏了节点环境的独立性，它应该普遍适用于业务的计算要求，不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则，多用户、多任务就不可控。
: : 2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的，块的大小可以设置，比如128M。一个大文件会拆分为若干128M的块，存储在各data node上，分块的信息、存储在哪里，类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上，会浪费
: : ...................
:
: --
:
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 223.104.40.*]
--
FROM 222.129.135.*