- 主题:现在搞 OCR 有什么好方案?
YOLO还能做OCR吗?不是做对象识别的吗
【 在 VincentGe 的大作中提到: 】
: 先说业务场景,基本就paddle和YOLO可用
:
: #发自zSMTH@CDU.MP
--
FROM 162.105.140.*
请问什么大模型能做离线OCR?效果咋样
【 在 firewall 的大作中提到: 】
: 我们之前使用百度ocr,包括离线搭建,现在转到大模型
--
FROM 162.105.140.*
哈哈确实有点
【 在 semipunk 的大作中提到: 】
: 大模型做ocr不是杀鸡用牛刀吗
--
FROM 162.105.140.*
想尝试竖版识别,有日文和繁体汉字,不知道有没有推荐思路?谢谢!
【 在 VincentGe 的大作中提到: 】
: 可以,有些项目字库很小,很适合用yolo
: yolo还可以用用来定位文本位置
: 方案很多,所以先问你业务场景
: ...................
--
FROM 162.105.140.*
是的,我是想本地部署,在线版的要上传数据,数据集比较大的话上传要占不少时间。moonshot就是单张上传直接prompt提问对吧?
【 在 firewall 的大作中提到: 】
: 调研了一圈,用了moonshot,你要自己部署吗
--
FROM 162.105.140.*
Phi3-vision只能做英文ocr吧
【 在 stevenwyy 的大作中提到: 】
: phi3-vision
: 大小合理,关键还开源
--
FROM 162.105.140.*
这个我还没注意,我关注下,谢谢!
【 在 tgfbeta 的大作中提到: 】
: QWen2-VL呢?最近刚发布的那个
--
FROM 162.105.140.*
请问方便分享一下训练验证素材是如何准备及标注的吗?很感兴趣,谢谢!
【 在 poocp 的大作中提到: 】
: 我用百度飞桨自己从零训练(所有训练及验证素材自备且完成了自动标注),离线挺好用的,有GPU识别速度快一点,CPU也能用。
:
--
FROM 162.105.140.*
是PaddleOCR对吗
【 在 poocp 的大作中提到: 】
: 按官方文档的步骤来就行。
:
--
FROM 162.105.140.*
这个效果也太好了,我想训练一个识别日文报纸的,训练数据似乎不太好生成
【 在 poocp 的大作中提到: 】
: 是的,文档有如何从零开始训练的部分。
: 我是用来识别指定屏幕字体,所以很方便自动生成和自动标注。
: 训练出来的模型能达到100%正确率(5000万条验证素材0错误)。
: ...................
--
FROM 162.105.140.*