file mapping加上手写sax,比较宽松的xml合法性检查,假设utf8编码,遍历单个700MB的文件,两秒左右完成。升级下硬件,代码再优化一下,应该还能更快。
工作需要自己写的,不能开源。仅供对比一下性能。
【 在 z16166 的大作中提到: 】
: 我这个需要极限的性能,怎么优化都不为过。类似杀软对office文档的检测。
: 我估计小文件用libhpxml这种需要全部加载到内存、不需要复制字符串而是尽量返回string_view的库。
: libhpxml这个自己搞了一个类似string_view的,毕竟这库写出来的那会儿std里还没string_view这个东西。
: ...................
--
FROM 183.42.37.*