XML解析性能的问题

水木社区手机版

展开|楼主|同主题展开|返回

上一篇|下一篇|同主题下篇

主题:XML解析性能的问题
z16166|2022-07-13 11:00:13|
需要解析docx里的XML里的文本，也就是提取OOXML里的文本。

目前采用DOM方式，存在的问题：
1、内存占用问题：DOM需要load整个文件进内存，超大文件不能处理。
2、性能：DOM需要预先建树，然后用XPath来select指定的节点。不快。

有一种VTD-XML的解析方法，但仍旧是需要一次性将整个文件load进内存。

不知道有没人尝试过SAX解析或者自己裸解析xml中的局部节点？

最好对于几百兆的大文件，能采用流式 + 滑动窗口的，解析时文件流占用的内存主要用滑动窗口的大小来限制。
--
FROM 222.129.205.*

上一篇|下一篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版