现在搞 OCR 有什么好方案？

水木社区手机版

主题:现在搞 OCR 有什么好方案？
12楼|hilarious|2024-08-11 16:07:32|展开
YOLO还能做OCR吗？不是做对象识别的吗
【在 VincentGe 的大作中提到: 】
: 先说业务场景，基本就paddle和YOLO可用
:
: #发自zSMTH@CDU.MP
--
FROM 162.105.140.*
13楼|hilarious|2024-08-11 16:08:09|展开
请问什么大模型能做离线OCR？效果咋样
【在 firewall 的大作中提到: 】
: 我们之前使用百度ocr，包括离线搭建，现在转到大模型
--
FROM 162.105.140.*
18楼|hilarious|2024-08-12 14:56:31|展开
哈哈确实有点
【在 semipunk 的大作中提到: 】
: 大模型做ocr不是杀鸡用牛刀吗
--
FROM 162.105.140.*
19楼|hilarious|2024-08-12 14:58:11|展开
想尝试竖版识别，有日文和繁体汉字，不知道有没有推荐思路？谢谢！
【在 VincentGe 的大作中提到: 】
: 可以，有些项目字库很小，很适合用yolo
: yolo还可以用用来定位文本位置
: 方案很多，所以先问你业务场景
: ...................
--
FROM 162.105.140.*
26楼|hilarious|2024-08-13 09:01:04|展开
是的，我是想本地部署，在线版的要上传数据，数据集比较大的话上传要占不少时间。moonshot就是单张上传直接prompt提问对吧？
【在 firewall 的大作中提到: 】
: 调研了一圈，用了moonshot，你要自己部署吗
--
FROM 162.105.140.*
33楼|hilarious|2024-08-21 14:11:47|展开
Phi3-vision只能做英文ocr吧
【在 stevenwyy 的大作中提到: 】
: phi3-vision
: 大小合理，关键还开源
--
FROM 162.105.140.*
38楼|hilarious|2024-09-04 17:24:49|展开
这个我还没注意，我关注下，谢谢！
【在 tgfbeta 的大作中提到: 】
: QWen2-VL呢？最近刚发布的那个
--
FROM 162.105.140.*
39楼|hilarious|2024-09-04 17:26:26|展开
请问方便分享一下训练验证素材是如何准备及标注的吗？很感兴趣，谢谢！
【在 poocp 的大作中提到: 】
: 我用百度飞桨自己从零训练（所有训练及验证素材自备且完成了自动标注），离线挺好用的，有GPU识别速度快一点，CPU也能用。
:
--
FROM 162.105.140.*
41楼|hilarious|2024-09-04 17:55:47|展开
是PaddleOCR对吗
【在 poocp 的大作中提到: 】
: 按官方文档的步骤来就行。
:
--
FROM 162.105.140.*
43楼|hilarious|2024-09-04 18:40:05|展开
这个效果也太好了，我想训练一个识别日文报纸的，训练数据似乎不太好生成
【在 poocp 的大作中提到: 】
: 是的，文档有如何从零开始训练的部分。
: 我是用来识别指定屏幕字体，所以很方便自动生成和自动标注。
: 训练出来的模型能达到100%正确率（5000万条验证素材0错误）。
: ...................
--
FROM 162.105.140.*