佚名
整合编辑:太平洋科技
发布于:2025-11-10 10:12
近日,科技媒体实测了DeepSeek最新开源OCR模型。DeepSeek - OCR有视觉压缩等创新,长文本处理出色。但测试中,在手写公式、复杂表格识别等方面,它表现有瑕疵,对比之下不敌百度PaddleOCR - VL。不过,其PDF转Markdown速度快。此测试揭示了不同OCR模型的优劣,值得关注。
|
近日,OCR领域似乎迎来了黄金时代,众多模型纷纷涌现,像百度的PaddleOCR - VL、阿里Qwen3 - VL、小红书的dots - ocr、Nanonets - OCR2等。其中,DeepSeek发布了《DeepSeek - OCR:基于视觉压缩的大模型长上下文增强方案》论文,并同步开源了模型文件。 DeepSeek - OCR有两个核心。一个是纯粹的OCR,这也是本次测试的重点;另一个是上下文光学压缩(Contexts Optical Compression),它解决了大模型在长上下文处理上的算力瓶颈。这一技术让AI的“记忆”更像人类,或许是通往下一代智能的钥匙。DeepSeek - OCR通过视觉压缩实现“以小博大”,在长文本处理上突破了算力与精度的平衡,还得到了Andrej Jarpathy的极高评价。 在OCR方面,DeepSeek - OCR表现不俗。当压缩比 ≤10倍时,准确率 >95%,几乎无损。在ICDAR 2023数据集里,10倍压缩下准确率达97.3%,速度为8.2页/秒,显存仅4.5GB。与MinerU2.0(6000 + tokens/页,1.5页/秒,12.8GB显存)相比,优势明显。在财报处理上,286页年报表格还原率95.7%,耗时4分钟;论文公式识别率92.1%,LaTeX可直接使用;合同批注关联率89.5%,比Tesseract高27%。 下面来看看具体的测试情况。由于没有进行本地部署,直接使用了HF上一个用Gradio开发的Space(https://huggingface.co/spaces/khang119966/DeepSeek - OCR - DEMO)进行测试。测试样例取自之前对几个大模型(Kimi、Qwen - 3 - 235B - A22B、Claude - 3.7 - sonnet、GPT - 4.1、Gemini 2.5 Pro)在latex公式识别中的表现测试。当时DeepSeek不是多模态,未参与对比,此次刚好补上。
在复杂表格识别方面,DeepSeek - OCR没有把表头识别好,而百度Paddle表现出色。不过,测试时使用的HF的Space很不稳定,很多时候没办法同时展示百度的表现。 总体来看,DeepSeek - OCR确实很优秀,但并非SOTA级别。需要补充说明的是,不是DeepSeek - OCR不好,它有伟大的创新,但在OCR这一块,就这几个实例而言,它确实不如百度PaddleOCR - VL这个0.9B的小模型。此外,调用DeepSeek - OCR把PDF转Markdown的速度极快,22页不到一分钟,但返回的是json格式,正文部分大量,预览起来很费劲,而且它没有去理解配图,其他方面还行。 |
IT百科
网友评论
聚超值•精选
