需要解析docx里的XML里的文本,也就是提取OOXML里的文本。
目前采用DOM方式,存在的问题:
1、内存占用问题:DOM需要load整个文件进内存,超大文件不能处理。
2、性能:DOM需要预先建树,然后用XPath来select指定的节点。不快。
有一种VTD-XML的解析方法,但仍旧是需要一次性将整个文件load进内存。
不知道有没人尝试过SAX解析或者自己裸解析xml中的局部节点?
最好对于几百兆的大文件,能采用流式 + 滑动窗口的,解析时文件流占用的内存主要用滑动窗口的大小来限制。
--
FROM 222.129.205.*