完整的conda环境,确实不能不打包放hdfs,是灾难...
如果集群是你负责的话,可以考虑直接将相应环境部署到所有data node的特殊路径下,路径或配置文件包含必要的名称(用途)、版本等信息,便于后续区分不同用途、不同版本的环境。
【 在 qianfeng018 的大作中提到: 】
: 标 题: Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上
: 发信站: 水木社区 (Mon Feb 19 09:27:19 2024), 转信
:
: conda运行环境快10个G了
: 确实每个模型的运行时长不太长,短的1分钟,长的不到20分钟,确实感觉可以不上hadoop。不过遗留架构,不敢随便改
:
: 【 在 YYW 的大作中提到: 】
: : 我的hadoop知识比较老旧,如果有讲错的请不吝赐教:
: : 1. 如果把算法环境部署到每一个data node上,其实破坏了节点环境的独立性,它应该普遍适用于业务的计算要求,不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则,多用户、多任务就不可控。
: : 2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的,块的大小可以设置,比如128M。一个大文件会拆分为若干128M的块,存储在各data node上,分块的信息、存储在哪里,类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上,会浪费
: : ...................
:
: --
:
: ※ 来源:·水木社区
http://www.mysmth.net·[FROM: 223.104.40.*]
--
FROM 222.129.135.*