现在搞 OCR 有什么好方案？

水木社区手机版

主题:现在搞 OCR 有什么好方案？
20楼|PaoloMaldini|2024-08-12 15:21:27|只看此ID
能啊，都是基操
比如我体检完了把体检报告截屏扔给随便哪个大模型（kimi、GPT、claude）
让他们给我讲讲这里有啥异常指标，应该注意啥，都能搞定

【在 hgoldfish 的大作中提到: 】
: 关键是能离线么？
: 而且大语言模型是生成模式，做 OCR 也能做？
--
FROM 114.248.219.193
21楼|foliver|2024-08-12 16:33:12|只看此ID
ocr核心是原始图像变换。你这正规打印字体加无干扰背景，当然很好处理。

你要是拿手机拍书的一页，书还是褶皱不平的，书也是老旧的。或者有其他干扰背景等

【在 PaoloMaldini 的大作中提到: 】
: 能啊，都是基操
: 比如我体检完了把体检报告截屏扔给随便哪个大模型（kimi、GPT、claude）
: 让他们给我讲讲这里有啥异常指标，应该注意啥，都能搞定
: ...................
--来自微水木3.5.10
--
FROM 124.77.82.*
22楼|semipunk|2024-08-12 17:21:51|只看此ID
大模型不是大语言模型啊，试试ddddocr
【在 hgoldfish 的大作中提到: 】
: 关键是能离线么？
: 而且大语言模型是生成模式，做 OCR 也能做？
:
--
FROM 117.129.14.*
23楼|firewall|2024-08-12 18:52:11|只看此ID
调研了一圈，用了moonshot，你要自己部署吗
【在 hilarious 的大作中提到: 】
: 请问什么大模型能做离线OCR？效果咋样
: 【在 firewall 的大作中提到: 】
: : 我们之前使用百度ocr，包括离线搭建，现在转到大模型
: ...................
--
FROM 39.144.156.*
24楼|SmartIC|2024-08-12 19:07:52|只看此ID
百度API，无敌。

【在 hgoldfish 的大作中提到: 】
: 有没有人对比搞 OCR 哪个方案的运行效率、识别率等等？
--
FROM 223.11.39.*
25楼|PaoloMaldini|2024-08-12 21:27:36|只看此ID
也试过挺牛逼的，比如拍某个泰国买的调料外包装(凹凸不平、反光)让GPT翻译到底有啥成分
反正LLM比预想的牛逼得多

【在 foliver 的大作中提到: 】
: ocr核心是原始图像变换。你这正规打印字体加无干扰背景，当然很好处理。
: 你要是拿手机拍书的一页，书还是褶皱不平的，书也是老旧的。或者有其他干扰背景等
: --来自微水木3.5.10
: ...................
--
FROM 114.248.219.193
26楼|hilarious|2024-08-13 09:01:04|只看此ID
是的，我是想本地部署，在线版的要上传数据，数据集比较大的话上传要占不少时间。moonshot就是单张上传直接prompt提问对吧？
【在 firewall 的大作中提到: 】
: 调研了一圈，用了moonshot，你要自己部署吗
--
FROM 162.105.140.*
27楼|tgfbeta|2024-08-14 15:33:11|只看此ID
用现在最火的架构：vision transformer（ViT）
【在 hgoldfish 的大作中提到: 】
: 有没有人对比搞 OCR 哪个方案的运行效率、识别率等等？
--
FROM 125.38.176.*
28楼|VincentGe|2024-08-14 23:20:25|只看此ID
先直接用paddleocr原版试试效果，然后合成数据再训练
一般思路，如果有数据可以和我联系，我可以协助训练

【在 hilarious 的大作中提到: 】
:
: 想尝试竖版识别，有日文和繁体汉字，不知道有没有推荐思路？谢谢！
: 【在 VincentGe 的大作中提到: 】
: : 可以，有些项目字库很小，很适合用yolo
: : yolo还可以用用来定位文本位置

#发自zSMTH@CDU.MP
--
FROM 113.143.104.*
29楼|lalula|2024-08-15 11:07:36|只看此ID
没啥好方案
都不太行

【在 hgoldfish 的大作中提到: 】
: 有没有人对比搞 OCR 哪个方案的运行效率、识别率等等？
--
FROM 123.120.172.*