DeepSeek大范围开放识图模式:实测能力、技术框架与站长应用价值

DeepSeek正式跨入图文交互时代

5月9日消息,DeepSeek 大范围开放了”识图模式”,正式跨入图文交互时代。此前该功能从上月底开始灰度测试,目前已面向几乎所有用户开放,但仍标注为”图片理解功能内测中”。

在DeepSeek网页端,输入框上方与”快速模式”和”专家模式”并列,已出现全新的”识图模式”按钮。用户可以直接上传图片,让DeepSeek识别和分析图片内容。

实测:DeepSeek识图能做什么

根据多方实测,DeepSeek的识图能力覆盖了多个实用场景:

博物学家级识别

上传博物馆文物照片,DeepSeek能准确推断出18世纪清代乾隆时期的”痕都斯坦风格”玉器,识别精度令人印象深刻。

空间推理能力

面对高难度立方体拼合题,开启深度思考后约4分钟给出正确答案。这说明DeepSeek不仅能”看”,还能”想”。

网感和梗图识别

精准识别表情包和梗图中的人物,能区分特朗普和鲁路修这样的视觉相似角色,还能解读小猫的情绪状态。

生产力场景

截图转码器功能:上传代码或UI截图后,可以解析内容并一键反向生成可交互的HTML代码。这对前端开发者来说非常实用。

技术框架:Thinking with Visual Primitives

DeepSeek公布了其识图功能的核心技术框架——”Thinking with Visual Primitives(以视觉原语思考)”。这个框架的核心创新是将点、边界框等视觉元素直接融入推理链条,使其成为”思维的基本单元”。

传统多模态模型存在”指代鸿沟”问题——模型能识别图片中的物体,但在推理过程中难以精确引用这些视觉元素。DeepSeek的方案通过将视觉原语融入思维链,有效解决了这个问题。

算力效率:碾压竞品

一个值得关注的数据是算力消耗:处理800×800分辨率的图片,DeepSeek仅消耗约90个tokens,而GPT和Claude等竞品需要870-1100个tokens。这意味着DeepSeek的图片处理成本仅为竞品的1/10左右。

对于需要大量图片处理的站长和开发者来说,这个成本优势非常显著。

目前的不足

  • 知识库更新滞后:识别2025年底发布的新手机时给出错误型号
  • 反直觉场景表现不稳定:面对数老虎、视错觉等题目时存在不确定性,深度思考后可能产生更严重的幻觉
  • 功能尚不完整:目前仅为纯视觉理解模块,未集成图像生成、视频理解等更多模态功能

对站长的实际价值

DeepSeek识图模式的开放,为站长和开发者提供了几个实用方向:

  1. 图片内容审核:低成本实现用户上传图片的内容识别和审核
  2. 电商产品识别:自动识别产品图片,提取产品信息
  3. 截图转代码:将设计稿或UI截图快速转换为前端代码
  4. 文档OCR增强:不只是文字识别,还能理解图片中的图表、流程图等复杂内容

考虑到DeepSeek的API定价优势和识图模式的低token消耗,这可能是目前性价比最高的AI识图方案之一。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
相关推荐
<p>菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。</p>

<h2>菲尔兹奖得主的实测</h2>

<p>Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。</p>

<p>据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:</p>

<ul>
<li>对问题的准确理解</li>
<li>合理的解题策略选择</li>
<li>严密的逻辑推导链</li>
<li>对特殊情况的处理</li>
</ul>

<h2>与前代模型的对比</h2>

<p>Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:</p>

<ul>
<li>推理链中途断裂,得出错误结论</li>
<li>混淆不同数学概念</li>
<li>在计算步骤中出错</li>
<li>无法识别问题的关键约束条件</li>
</ul>

<p>而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。</p>

<h2>对普通用户意味着什么</h2>

<p>虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:</p>

<ul>
<li><strong>编程辅助</strong>:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。</li>
<li><strong>数据分析</strong>:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。</li>
<li><strong>技术文档</strong>:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。</li>
<li><strong>教育辅导</strong>:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。</li>
</ul>

<h2>AI数学能力的里程碑</h2>

<p>ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:</p>

<ul>
<li>单一数学家的主观测试不能替代系统性基准评估</li>
<li>模型可能在训练数据中见过类似题目</li>
<li>真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板</li>
</ul>

<p>无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。</p>

<blockquote>
<p><strong>来源:</strong></p>
<ul>
<li><a href=Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro
  • OSCHINA – ChatGPT 5.5 Pro一小时攻克博士级数学难题
  • -枫选">

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。

    菲尔兹奖得主的实测

    Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。

    据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:

    • 对问题的准确理解
    • 合理的解题策略选择
    • 严密的逻辑推导链
    • 对特殊情况的处理

    与前代模型的对比

    Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:

    • 推理链中途断裂,得出错误结论
    • 混淆不同数学概念
    • 在计算步骤中出错
    • 无法识别问题的关键约束条件

    而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。

    对普通用户意味着什么

    虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:

    • 编程辅助:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。
    • 数据分析:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。
    • 技术文档:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。
    • 教育辅导:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。

    AI数学能力的里程碑

    ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:

    • 单一数学家的主观测试不能替代系统性基准评估
    • 模型可能在训练数据中见过类似题目
    • 真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板

    无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。

    来源:

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的...

    3天前 54
    评论 抢沙发

    请登录后发表评论

      暂无评论内容