《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > DeepSeek开源3B OCR模型

DeepSeek开源3B OCR模型

97%精度刷新长文本压缩极限
2025-10-21
来源:快科技
关键词: Deepseek 大模型

10月21日消息,据媒体报道,DeepSeek在GitHub上开源了其最新研究成果——DeepSeek-OCR模型。

据介绍,DeepSeek-OCR的参数量约为3B,是研究团队对“光学二维映射压缩”技术在长文本上下文处理中可行性的首次探索。

s_3ee849c0da004a5dac7372ce7364c675.png

该模型核心由DeepEncoder与DeepSeek3B-MoE-A570M解码器构成:DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token准确转化为文本信息。

实验数据显示,当文本token数量控制在视觉token的10倍以内(压缩率<10 x )时,OCR识别精度可达97%;即使压缩率提升至20×,模型准确率仍能维持在60%左右。

研究团队表示,这一成果为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究提供了新的思路与方向。

s_0529deeb54964ca49443d1c59fe6387e.png

论文标题:DeepSeek-OCR: Contexts Optical Compression

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR


subscribe.jpg

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。