谢谢反馈。是这样的哈,比对这部分,左侧的红框代表删除的内容,右侧的绿框代表新增的内容。第一幅图的例子,实际是‘如果出现了网络问题,大家可以xxx’这一整句话都被认为是新增,但因为右侧是像素化的PDF,没有让模型去预测每一个字的bbox,而是直接预测了一整行的bbox,然后按字数去切的,就会出现不能完全匹配的情况。
‘参’的高亮是因为右侧的‘参’没有被OCR提取出来导致的。
‘np’这个也是因为bbox有错位。
【 在 wuduan 的大作中提到: 】
: 似乎不是很严格?
: 例如“大家可以”变为右侧绿色部分,右侧中间那个白色的“题”是什么意思?
: 左侧的“参”怎么了?
: ...................
--
FROM 61.51.76.*