DeepSeek正式跨入图文交互时代
5月9日消息,DeepSeek 大范围开放了”识图模式”,正式跨入图文交互时代。此前该功能从上月底开始灰度测试,目前已面向几乎所有用户开放,但仍标注为”图片理解功能内测中”。
在DeepSeek网页端,输入框上方与”快速模式”和”专家模式”并列,已出现全新的”识图模式”按钮。用户可以直接上传图片,让DeepSeek识别和分析图片内容。
实测:DeepSeek识图能做什么
根据多方实测,DeepSeek的识图能力覆盖了多个实用场景:
博物学家级识别
上传博物馆文物照片,DeepSeek能准确推断出18世纪清代乾隆时期的”痕都斯坦风格”玉器,识别精度令人印象深刻。
空间推理能力
面对高难度立方体拼合题,开启深度思考后约4分钟给出正确答案。这说明DeepSeek不仅能”看”,还能”想”。
网感和梗图识别
精准识别表情包和梗图中的人物,能区分特朗普和鲁路修这样的视觉相似角色,还能解读小猫的情绪状态。
生产力场景
截图转码器功能:上传代码或UI截图后,可以解析内容并一键反向生成可交互的HTML代码。这对前端开发者来说非常实用。
技术框架:Thinking with Visual Primitives
DeepSeek公布了其识图功能的核心技术框架——”Thinking with Visual Primitives(以视觉原语思考)”。这个框架的核心创新是将点、边界框等视觉元素直接融入推理链条,使其成为”思维的基本单元”。
传统多模态模型存在”指代鸿沟”问题——模型能识别图片中的物体,但在推理过程中难以精确引用这些视觉元素。DeepSeek的方案通过将视觉原语融入思维链,有效解决了这个问题。
算力效率:碾压竞品
一个值得关注的数据是算力消耗:处理800×800分辨率的图片,DeepSeek仅消耗约90个tokens,而GPT和Claude等竞品需要870-1100个tokens。这意味着DeepSeek的图片处理成本仅为竞品的1/10左右。
对于需要大量图片处理的站长和开发者来说,这个成本优势非常显著。
目前的不足
- 知识库更新滞后:识别2025年底发布的新手机时给出错误型号
- 反直觉场景表现不稳定:面对数老虎、视错觉等题目时存在不确定性,深度思考后可能产生更严重的幻觉
- 功能尚不完整:目前仅为纯视觉理解模块,未集成图像生成、视频理解等更多模态功能
对站长的实际价值
DeepSeek识图模式的开放,为站长和开发者提供了几个实用方向:
- 图片内容审核:低成本实现用户上传图片的内容识别和审核
- 电商产品识别:自动识别产品图片,提取产品信息
- 截图转代码:将设计稿或UI截图快速转换为前端代码
- 文档OCR增强:不只是文字识别,还能理解图片中的图表、流程图等复杂内容
考虑到DeepSeek的API定价优势和识图模式的低token消耗,这可能是目前性价比最高的AI识图方案之一。











Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro


暂无评论内容