Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: 自定义算法的运行环境为啥是zip包的形式放到spark/hadoop上
qianfeng018|2024-02-19 09:27:19|
conda运行环境快10个G了
确实每个模型的运行时长不太长，短的1分钟，长的不到20分钟，确实感觉可以不上hadoop。不过遗留架构，不敢随便改

【在 YYW 的大作中提到: 】
: 我的hadoop知识比较老旧，如果有讲错的请不吝赐教：
: 1. 如果把算法环境部署到每一个data node上，其实破坏了节点环境的独立性，它应该普遍适用于业务的计算要求，不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则，多用户、多任务就不可控。
: 2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的，块的大小可以设置，比如128M。一个大文件会拆分为若干128M的块，存储在各data node上，分块的信息、存储在哪里，类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上，会浪费
: ...................
--
FROM 223.104.40.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版