水木社区手机版
首页
|版面-新软件介绍(NewSoftware)|
新版wap站已上线
返回
1/1
|
转到
主题:[原创] 做了个PDF文件比对查重工具,分享给大家
楼主
|
master1517
|
2025-08-18 15:54:20
|
展开
最近在做一些AI相关的项目,遇到了文件比对和查重的需求,顺带手开发了一个小工具。
这个工具可以用来比较两份PDF文件之间的差异,也可以定位出两份PDF文件之间重复的部分。
相较于市面上的工具,咱这个集成了OCR的功能,即使是像素化的PDF也能处理。
有需求或想法的,欢迎站内
--
修改:master1517 FROM 61.51.76.*
FROM 61.51.76.*
2楼
|
master1517
|
2025-08-18 18:34:05
|
展开
谢谢反馈。是这样的哈,比对这部分,左侧的红框代表删除的内容,右侧的绿框代表新增的内容。第一幅图的例子,实际是‘如果出现了网络问题,大家可以xxx’这一整句话都被认为是新增,但因为右侧是像素化的PDF,没有让模型去预测每一个字的bbox,而是直接预测了一整行的bbox,然后按字数去切的,就会出现不能完全匹配的情况。
‘参’的高亮是因为右侧的‘参’没有被OCR提取出来导致的。
‘np’这个也是因为bbox有错位。
【 在 wuduan 的大作中提到: 】
: 似乎不是很严格?
: 例如“大家可以”变为右侧绿色部分,右侧中间那个白色的“题”是什么意思?
: 左侧的“参”怎么了?
: ...................
--
FROM 61.51.76.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版