Re: [原创] 做了个PDF文件比对查重工具，分享给大家

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇

主题:Re: [原创] 做了个PDF文件比对查重工具，分享给大家
master1517|2025-08-18 18:34:05|
谢谢反馈。是这样的哈，比对这部分，左侧的红框代表删除的内容，右侧的绿框代表新增的内容。第一幅图的例子，实际是‘如果出现了网络问题，大家可以xxx’这一整句话都被认为是新增，但因为右侧是像素化的PDF，没有让模型去预测每一个字的bbox，而是直接预测了一整行的bbox，然后按字数去切的，就会出现不能完全匹配的情况。
‘参’的高亮是因为右侧的‘参’没有被OCR提取出来导致的。
‘np’这个也是因为bbox有错位。
【在 wuduan 的大作中提到: 】
: 似乎不是很严格？
: 例如“大家可以”变为右侧绿色部分，右侧中间那个白色的“题”是什么意思？
: 左侧的“参”怎么了？
: ...................
--
FROM 61.51.76.*

上一篇|下一篇|同主题上篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版