亚马逊员工被曝伪造AI使用量:当token消耗变成KPI考核指标

Fast Company报道,亚马逊员工正面临一种新型的KPI压力:AI工具使用量。员工被要求增加AI工具的使用频率,而token消耗量正在被追踪,并可能影响绩效评估。

发生了什么

在亚马逊内部,AI工具的使用量正在成为一种被追踪的指标。员工们发现,他们的token消耗量不仅被记录,还被放在内部排行榜上展示。虽然排行榜附有免责声明说”不计入绩效评估”,但暗示意味非常明显。

结果是,员工们开始创造不必要的任务来展示AI使用量。有人用AI完成一个有经验的系统管理员只需要一条命令就能搞定的事情;有人在聊天机器人里输入”Hello”来消耗token;有人让内部工具24/7运行,烧掉大量token,只为在排行榜上名列前茅。

为什么会这样

这个现象完美诠释了Goodhart定律:”当一个指标变成目标时,它就不再是一个好指标。”

token消耗量作为生产力指标,就好比用”在办公室待了多少小时”来衡量工作成果一样荒谬。一个高效的工程师可能用AI辅助10分钟就解决了问题,而另一个不熟悉工具的人可能花3小时反复对话才得到同样的结果——后者的token消耗量更高,但生产力显然更低。

一位前AWS员工分享了自己的经历:AWS的销售代表骄傲地展示”看看我这个月用了多少token”,用AI完成了”作为老手系统管理员只需要一条命令”的事情。这种”为用而用”的行为,本质上是将AI从工具变成了表演道具。

不只是亚马逊

这不是亚马逊独有的问题。类似的AI使用压力正在多家科技公司蔓延:

  • 微软:有员工报告说,如果不每天使用Copilot,就会收到”提醒”邮件。
  • Slack:推出了一个AI功能,根据你的聊天记录告诉你”你是哪种动物”——这显然是为了展示AI集成的”成果”。
  • 多家FAANG公司:员工确认面临类似的AI使用量考核压力。

更深层的问题

有评论者指出了更深层的矛盾:

  1. 资源错配:员工在内部烧掉大量AI token来满足考核,而亚马逊面向消费者的AI产品(如Alexa)却表现糟糕。有人反映Alexa甚至无法解释为什么他的书延迟送达。
  2. 环境成本:在气候危机的背景下,大量无意义的token消耗意味着不必要的能源浪费和碳排放。
  3. 表演式合规:当员工只是为了满足指标而使用工具时,AI的实际价值并没有被发挥出来。管理者看到的”高使用率”数据完全是虚假繁荣。

对站长和企业的启示

如果你是团队管理者或站长,在推广AI工具时请注意:

  • 不要用使用量作为考核指标:关注产出质量而非工具使用频率。
  • 让AI解决真实问题:鼓励员工在确实有需要的场景中使用AI,而不是”为了用而用”。
  • 衡量结果而非过程:代码质量、bug修复速度、客户满意度才是有意义的指标。
  • 警惕AI形式主义:引入AI工具应该提升效率,而不是增加新的”表演”负担。

简评

这个事件暴露了一个荒诞的现实:当企业将AI使用量本身作为目标时,不仅没有提升效率,反而制造了大量无意义的工作。对于站长来说,这是一个很好的反面教材——工具的价值在于解决实际问题,而不是在于”用了多少”。如果你正在团队中推广AI工具,请记住Goodhart定律:衡量什么就会得到什么,但不一定是你想要的结果。

本文参考来源:
Fast Company: Amazon workers pressured to up AI use
Hacker News讨论

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
相关推荐
<p>菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。</p>

<h2>菲尔兹奖得主的实测</h2>

<p>Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。</p>

<p>据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:</p>

<ul>
<li>对问题的准确理解</li>
<li>合理的解题策略选择</li>
<li>严密的逻辑推导链</li>
<li>对特殊情况的处理</li>
</ul>

<h2>与前代模型的对比</h2>

<p>Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:</p>

<ul>
<li>推理链中途断裂,得出错误结论</li>
<li>混淆不同数学概念</li>
<li>在计算步骤中出错</li>
<li>无法识别问题的关键约束条件</li>
</ul>

<p>而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。</p>

<h2>对普通用户意味着什么</h2>

<p>虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:</p>

<ul>
<li><strong>编程辅助</strong>:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。</li>
<li><strong>数据分析</strong>:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。</li>
<li><strong>技术文档</strong>:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。</li>
<li><strong>教育辅导</strong>:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。</li>
</ul>

<h2>AI数学能力的里程碑</h2>

<p>ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:</p>

<ul>
<li>单一数学家的主观测试不能替代系统性基准评估</li>
<li>模型可能在训练数据中见过类似题目</li>
<li>真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板</li>
</ul>

<p>无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。</p>

<blockquote>
<p><strong>来源:</strong></p>
<ul>
<li><a href=Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro
  • OSCHINA – ChatGPT 5.5 Pro一小时攻克博士级数学难题
  • -枫选">

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。

    菲尔兹奖得主的实测

    Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。

    据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:

    • 对问题的准确理解
    • 合理的解题策略选择
    • 严密的逻辑推导链
    • 对特殊情况的处理

    与前代模型的对比

    Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:

    • 推理链中途断裂,得出错误结论
    • 混淆不同数学概念
    • 在计算步骤中出错
    • 无法识别问题的关键约束条件

    而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。

    对普通用户意味着什么

    虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:

    • 编程辅助:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。
    • 数据分析:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。
    • 技术文档:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。
    • 教育辅导:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。

    AI数学能力的里程碑

    ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:

    • 单一数学家的主观测试不能替代系统性基准评估
    • 模型可能在训练数据中见过类似题目
    • 真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板

    无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。

    来源:

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的...

    8天前 55
    评论 抢沙发

    请登录后发表评论

      暂无评论内容