- 主题:现在搞 OCR 有什么好方案?
能啊,都是基操
比如我体检完了把体检报告截屏扔给随便哪个大模型(kimi、GPT、claude)
让他们给我讲讲这里有啥异常指标,应该注意啥,都能搞定
【 在 hgoldfish 的大作中提到: 】
: 关键是能离线么?
: 而且大语言模型是生成模式,做 OCR 也能做?
--
FROM 114.248.219.193
ocr核心是原始图像变换。你这正规打印字体加无干扰背景,当然很好处理。
你要是拿手机拍书的一页,书还是褶皱不平的,书也是老旧的。或者有其他干扰背景等
【 在 PaoloMaldini 的大作中提到: 】
: 能啊,都是基操
: 比如我体检完了把体检报告截屏扔给随便哪个大模型(kimi、GPT、claude)
: 让他们给我讲讲这里有啥异常指标,应该注意啥,都能搞定
: ...................
--来自微水木3.5.10
--
FROM 124.77.82.*
大模型不是大语言模型啊,试试ddddocr
【 在 hgoldfish 的大作中提到: 】
: 关键是能离线么?
: 而且大语言模型是生成模式,做 OCR 也能做?
:
--
FROM 117.129.14.*
调研了一圈,用了moonshot,你要自己部署吗
【 在 hilarious 的大作中提到: 】
: 请问什么大模型能做离线OCR?效果咋样
: 【 在 firewall 的大作中提到: 】
: : 我们之前使用百度ocr,包括离线搭建,现在转到大模型
: ...................
--
FROM 39.144.156.*
百度API,无敌。
【 在 hgoldfish 的大作中提到: 】
: 有没有人对比搞 OCR 哪个方案的运行效率、识别率等等?
--
FROM 223.11.39.*
也试过挺牛逼的,比如拍某个泰国买的调料外包装(凹凸不平、反光)让GPT翻译到底有啥成分
反正LLM比预想的牛逼得多
【 在 foliver 的大作中提到: 】
: ocr核心是原始图像变换。你这正规打印字体加无干扰背景,当然很好处理。
: 你要是拿手机拍书的一页,书还是褶皱不平的,书也是老旧的。或者有其他干扰背景等
: --来自微水木3.5.10
: ...................
--
FROM 114.248.219.193
是的,我是想本地部署,在线版的要上传数据,数据集比较大的话上传要占不少时间。moonshot就是单张上传直接prompt提问对吧?
【 在 firewall 的大作中提到: 】
: 调研了一圈,用了moonshot,你要自己部署吗
--
FROM 162.105.140.*
用现在最火的架构:vision transformer(ViT)
【 在 hgoldfish 的大作中提到: 】
: 有没有人对比搞 OCR 哪个方案的运行效率、识别率等等?
--
FROM 125.38.176.*
先直接用paddleocr原版试试效果,然后合成数据再训练
一般思路,如果有数据可以和我联系,我可以协助训练
【 在 hilarious 的大作中提到: 】
:
: 想尝试竖版识别,有日文和繁体汉字,不知道有没有推荐思路?谢谢!
: 【 在 VincentGe 的大作中提到: 】
: : 可以,有些项目字库很小,很适合用yolo
: : yolo还可以用用来定位文本位置
#发自zSMTH@CDU.MP
--
FROM 113.143.104.*
没啥好方案
都不太行
【 在 hgoldfish 的大作中提到: 】
: 有没有人对比搞 OCR 哪个方案的运行效率、识别率等等?
--
FROM 123.120.172.*