用了大模型技术的OCR识别率更高,收费的有腾讯OCR,免费的百度paddle ocr但你要会一些python编程,不过也有Umi-OCR这种开箱即用的第三方封装。另外一些大模型OCR如下
适用场景 硬件要求 上手难度 大模型支持
MinerU 复杂PDF解析、学术论文、表格公式 中高(需6GB+显存) 简单 内置PP-OCRv5
GOT-OCR-2-GUI 高精度文档还原、研究用途 中等 中等 原生大模型
DeepSeek-OCR Windows用户快速体验 中等 简单 原生大模型
Ollama GUI 需要AI理解+识别(如总结图片内容) 高(需16GB+内存) 中等 原生大模型
【 在 factory 的大作中提到: 】
: 就是一个普通安卓手机小米,用自带的相册查看图片就能自动OCR。安卓手机应该都差不多吧?
: 比AI问小白都强。问小白不是特别偏僻的字都能正确识别,比各大OCR软件如abby15, umi ocr, 福昕2026强不少,比白描网页版就强更多了。
: 但是这安卓手机自带的相册查看图片太强了,连很偏僻的字如菰,勐都能识别
: ...................
--
FROM 171.213.134.*