- 主题:python有办法并行写入一个zip文件吗?
multiprocessing生成的数据,希望都写到同一个zip文件里,ZIP_LZMA方式压缩,现在发现瓶颈在写入。有办法并行写入zip文件吗?
谢谢。
--
FROM 192.119.13.*
好吧,理解了。谢谢。
【 在 poggy 的大作中提到: 】
:
: 这个不太行, 也没有意义, zip文件就像像归档的磁带, 是顺序存储的, 随机存储性能很差。
: 一定要并行, 那还不如各自压缩成包, 最好在用只存储不压缩的方式, 归档到一个zip里面。
: ...................
--
FROM 101.224.254.*
问题就是压缩的太慢了。想找个能快速压缩的办法。
看来好像不行,我再看看其它办法。
【 在 callmebbser 的大作中提到: 】
: multiprocessing并行分别在同一个目录下输出各自的数据文件,都输出完再来一个进程
: 对该目录压缩。
:
: ...................
--
FROM 101.224.254.*
谢谢。
【 在 JulyClyde 的大作中提到: 】
: zip不可能并行吧
--
FROM 101.224.254.*
谢谢,我来研究一下7zip
【 在 hgoldfish 的大作中提到: 】
: zip 不是固实压缩。可以随机访问。楼主的需求可以做到。但不好做。
: 主要原因是在压缩之前,并不知道最终压缩得到多少字节。
: 如果是 tar 就做不到了。
: ...................
--
FROM 39.144.104.*
本质是这样,有一些程序每天会生成数万个小文件,每个大小在数百k,都是二进制的double矩阵数据。想要比较好的管理起来。如果用数据库的话,很多人的建议是不要把小文件放进数据库。如果用文件系统的话小文件又太多,所以想把每天生成的小文件分类打包到几个不同的zip文件里。
数据是程序生成的,所以不是必须写成文件,可以直接dump进zip文件里。现在的问题是生成的时候,zip压缩的速度太慢,所以想有没有方法可以加速这个速度。
或者有其它更合理的方法来管理这些数据?
【 在 VincentGe 的大作中提到: 】
: 你要写什么内容?
:
: #发自zSMTH@CDU.MP
--
FROM 58.37.161.*
嗯,其实就是懒。确实应该先不压缩,等后面有空的时候慢慢压缩。
谢谢。
【 在 xuanqing 的大作中提到: 】
: 不一定非要一次搞定吧
: 可以程序dump原样不动
: 每天起个定时任务归档zip就好了
: ...................
--
修改:Madlee FROM 208.87.241.*
FROM 208.87.241.*