- 主题:python有办法并行写入一个zip文件吗?
【 在 hgoldfish 的大作中提到: 】
: 这我就不知道了啊。。
: 不过从压缩率角度考虑。使用公用的字典能够提供更高的压缩率。
:
不是的, 据我的了解, 其实,压缩算法大概率是自适应字典, 共用字典也有,但是不大,
也不会仅仅使用公用字典。 这个也可能导致,
字典和前面压缩内容相关,前面的改动会对后面有影响。
--
FROM 124.126.2.*
拿python直接调个别的支持多线程压缩的软件?
【 在 Madlee 的大作中提到: 】
: multiprocessing生成的数据,希望都写到同一个zip文件里,ZIP_LZMA方式压缩,现在发现瓶颈在写入。有办法并行写入zip文件吗?
: 谢谢。
--
FROM 124.207.9.*
看了,标准库zipfile肯定是不行的
不支持append/update操作
【 在 poggy 的大作中提到: 】
: 这应该是个好消息,
: 不知到哪个python库有这个支持?
: 我之前, 每天交易结束,下载当天股票的tick数据,
: 数据是一个大的zip文件, 每一个文件是里面的一个子文件,
: 想增量添加到每个股票子文件, 根本做不到,每次删除会导致重新生成。
: 现在的方法, 只能是放到一个目录里面, 然后每个股票一个压缩包,
: 每天往压缩包里面追加。
--
修改:JulyClyde FROM 139.227.19.*
FROM 139.227.19.*
可以重新生成啊
zip很古老,那时候可能还存在磁带呢
【 在 hgoldfish 的大作中提到: 】
: 这也太恶心了吧。如果旧的文件很大,岂不是非常浪费?
--
FROM 139.227.19.*
你要写什么内容?
【 在 Madlee 的大作中提到: 】
:
: multiprocessing生成的数据,希望都写到同一个zip文件里,ZIP_LZMA方式压缩,现在发现瓶颈在写入。有办法并行写入zip文件吗?
: 谢谢。
#发自zSMTH@CDU.MP
--
FROM 223.104.204.*
本质是这样,有一些程序每天会生成数万个小文件,每个大小在数百k,都是二进制的double矩阵数据。想要比较好的管理起来。如果用数据库的话,很多人的建议是不要把小文件放进数据库。如果用文件系统的话小文件又太多,所以想把每天生成的小文件分类打包到几个不同的zip文件里。
数据是程序生成的,所以不是必须写成文件,可以直接dump进zip文件里。现在的问题是生成的时候,zip压缩的速度太慢,所以想有没有方法可以加速这个速度。
或者有其它更合理的方法来管理这些数据?
【 在 VincentGe 的大作中提到: 】
: 你要写什么内容?
:
: #发自zSMTH@CDU.MP
--
FROM 58.37.161.*
单开一个进程写入,不要多次写入,搞个内存缓冲区。
进程内存档文件我建议不要使用zip,自己设计一个解构,然后次日压缩
【 在 Madlee 的大作中提到: 】
:
: 本质是这样,有一些程序每天会生成数万个小文件,每个大小在数百k,都是二进制的double矩阵数据。想要比较好的管理起来。如果用数据库的话,很多人的建议是不要把小文件放进数据库。如果用文件系统的话小文件又太多,所以想把每天生成的小文件分类打包到几个不同的zip文件里。
: 数据是程序生成的,所以不是必须写成文件,可以直接dump进zip文件里。现在的问题是生成的时候,zip压缩的速度太慢,所以想有没有方法可以加速这个速度。
: 或者有其它更合理的方法来管理这些数据?
:
#发自zSMTH@CDU.MP
--
FROM 111.18.38.*
不一定非要一次搞定吧
可以程序dump原样不动
每天起个定时任务归档zip就好了
关键是这些数据之后会怎么用呢
要是只是存起来备查怎么处理都好搞定吧
要是很经常会随机读取就要想想怎么整个好读取和索引的结构
【 在 Madlee 的大作中提到: 】
: 本质是这样,有一些程序每天会生成数万个小文件,每个大小在数百k,都是二进制的double矩阵数据。想要比较好的管理起来。如果用数据库的话,很多人的建议是不要把小文件放进数据库。如果用文件系统的话小文件又太多,所以想把每天生成的小文件分类打包到几个不同的zip文件里
:
: 数据是程序生成的,所以不是必须写成文件,可以直接dump进zip文件里。现在的问题是生成的时候,zip压缩的速度太慢,所以想有没有方法可以加速这个速度。
: ...................
--
FROM 123.123.205.*
嗯,其实就是懒。确实应该先不压缩,等后面有空的时候慢慢压缩。
谢谢。
【 在 xuanqing 的大作中提到: 】
: 不一定非要一次搞定吧
: 可以程序dump原样不动
: 每天起个定时任务归档zip就好了
: ...................
--
修改:Madlee FROM 208.87.241.*
FROM 208.87.241.*
你这个多进程写不同的zip,最后一步tar就好了,空间上和先tar再zip差不多
--
FROM 111.196.186.*