conda运行环境快10个G了
确实每个模型的运行时长不太长,短的1分钟,长的不到20分钟,确实感觉可以不上hadoop。不过遗留架构,不敢随便改
【 在 YYW 的大作中提到: 】
: 我的hadoop知识比较老旧,如果有讲错的请不吝赐教:
: 1. 如果把算法环境部署到每一个data node上,其实破坏了节点环境的独立性,它应该普遍适用于业务的计算要求,不被某个计算任务影响。集群的使用者也不应该有权限去影响节点的部署。破坏了这个规则,多用户、多任务就不可控。
: 2. 如果把算法包解压缩放到hdfs... hdfs的文件存储是分块的,块的大小可以设置,比如128M。一个大文件会拆分为若干128M的块,存储在各data node上,分块的信息、存储在哪里,类似的信息保持在name node。如果将类似py venv的小文件包不压缩放在hdfs上,会浪费
: ...................
--
FROM 223.104.40.*