DeepSeek大范围开放识图模式：实测能力、技术框架与站长应用价值

迪滴

4天前发布

04311

DeepSeek正式跨入图文交互时代

5月9日消息，DeepSeek 大范围开放了”识图模式”，正式跨入图文交互时代。此前该功能从上月底开始灰度测试，目前已面向几乎所有用户开放，但仍标注为”图片理解功能内测中”。

在DeepSeek网页端，输入框上方与”快速模式”和”专家模式”并列，已出现全新的”识图模式”按钮。用户可以直接上传图片，让DeepSeek识别和分析图片内容。

实测：DeepSeek识图能做什么

根据多方实测，DeepSeek的识图能力覆盖了多个实用场景：

博物学家级识别

上传博物馆文物照片，DeepSeek能准确推断出18世纪清代乾隆时期的”痕都斯坦风格”玉器，识别精度令人印象深刻。

空间推理能力

面对高难度立方体拼合题，开启深度思考后约4分钟给出正确答案。这说明DeepSeek不仅能”看”，还能”想”。

网感和梗图识别

精准识别表情包和梗图中的人物，能区分特朗普和鲁路修这样的视觉相似角色，还能解读小猫的情绪状态。

生产力场景

截图转码器功能：上传代码或UI截图后，可以解析内容并一键反向生成可交互的HTML代码。这对前端开发者来说非常实用。

技术框架：Thinking with Visual Primitives

DeepSeek公布了其识图功能的核心技术框架——”Thinking with Visual Primitives（以视觉原语思考）”。这个框架的核心创新是将点、边界框等视觉元素直接融入推理链条，使其成为”思维的基本单元”。

传统多模态模型存在”指代鸿沟”问题——模型能识别图片中的物体，但在推理过程中难以精确引用这些视觉元素。DeepSeek的方案通过将视觉原语融入思维链，有效解决了这个问题。

算力效率：碾压竞品

一个值得关注的数据是算力消耗：处理800×800分辨率的图片，DeepSeek仅消耗约90个tokens，而GPT和Claude等竞品需要870-1100个tokens。这意味着DeepSeek的图片处理成本仅为竞品的1/10左右。

对于需要大量图片处理的站长和开发者来说，这个成本优势非常显著。

目前的不足

知识库更新滞后：识别2025年底发布的新手机时给出错误型号
反直觉场景表现不稳定：面对数老虎、视错觉等题目时存在不确定性，深度思考后可能产生更严重的幻觉
功能尚不完整：目前仅为纯视觉理解模块，未集成图像生成、视频理解等更多模态功能

对站长的实际价值

DeepSeek识图模式的开放，为站长和开发者提供了几个实用方向：

图片内容审核：低成本实现用户上传图片的内容识别和审核
电商产品识别：自动识别产品图片，提取产品信息
截图转代码：将设计稿或UI截图快速转换为前端代码
文档OCR增强：不只是文字识别，还能理解图片中的图表、流程图等复杂内容

考虑到DeepSeek的API定价优势和识图模式的低token消耗，这可能是目前性价比最高的AI识图方案之一。

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END