Synth Daily

让AI来场面试

衡量人工智能的通用基准测试存在题目泄露、标准模糊等问题,且大多集中于数理和编码领域,无法全面评估其在写作或商业决策等方面的真实能力。因此,企业不应仅依赖通用分数,而应像招聘员工一样,通过设计贴近自身业务的真实任务、进行多次测试和专家评估,来系统性地“面试”AI模型。这种方法能更准确地揭示模型在具体工作中的表现、优劣势以及潜在的决策倾向,从而帮助企业选择最适合自身需求的AI。

标准测试的局限性

尽管投入巨大,我们衡量人工智能“智能”水平的方法却出奇地困难。最常见的方式是使用基准测试,就像让人类参加考试一样。但这种方法存在一些根本性问题。

  • 数据污染: 许多基准测试的题目和答案都是公开的,AI模型可能在训练中无意或有意地学习了这些内容,从而在测试中获得虚高的分数。
  • 测量标准模糊: 很多测试题目的意义并不明确。例如,知道“直立人的平均颅容量”或“廉价伎俩乐队1979年现场专辑的标题地名”并不能清晰地说明AI具备何种能力。
  • 评分不一致: 我们无法确定分数提升的难度是否是线性的。从40%提高到41%的难度,与从84%提高到85%的难度可能完全不同。
  • 测试本身存在错误: 许多测试因题目或答案有误,导致理论上的满分实际上无法达到。

尽管有这些缺陷,但总体来看,所有基准测试都显示出一个共同趋势:AI的能力在不断提升。然而,这些测试主要集中在数学、科学、推理和编码等领域。如果你想衡量写作能力、社会学分析或商业建议,几乎没有好的选择。

通过“感觉”来测试AI

当标准测试失效时,有时依赖“感觉”(Vibes)反而更有效。长期使用不同AI模型的人,会逐渐察觉到它们之间难以言喻却显而易见的差异。这催生了一些个人化的测试方法。

例如,有人会要求每个模型画“一只骑自行车的鹈鹕”,而我则要求它们创作“一只在飞机上的水獭”。

这些有趣的测试能让你直观地感受到AI对事物关系的理解,即它的“世界模型”。我还有许多其他测试,比如要求AI为“遥远未来的星际飞船控制面板”编写代码,或者创作一首有挑战性的诗。通过这些,我可以洞察模型的运作方式:它是否容易出错?它的回答是否与其他模型雷同?它反复出现的主题和偏见是什么?

这种基于感觉的测试,是个人了解模型的好方法,但它非常主观,且结果不稳定。更重要的是,它依赖于我们的直觉而非实际的衡量标准。不过,模型之间“感觉”上的明显差异恰恰说明,仅靠标准化基准测试是远远不够的

像面试一样评估AI

企业在选择AI系统时,常常将其视为一个技术和成本问题,依赖公开的基准分数来确保购买了“足够好”的模型。但这种方法很快就会失效,因为AI在很多方面更像一个拥有独特能力和弱点的人,而非普通的软件。

如果我们将选择AI类比为招聘员工,而不是技术采购,那么“足够好”就显得站不住脚了。公司会投入大量资金来招聘比平均水平更优秀的人才。对AI也应采取同样审慎的态度。

你不应该随便挑选一个模型,而是需要对它进行一次严格的求职面试

一个很好的例子是OpenAI最近的GDPval研究。其步骤清晰地展示了如何进行有效的“面试”:

  • 第一步:设定真实任务。 邀请拥有平均14年行业经验的专家,设计出需要人类专家花费4到7小时才能完成的复杂项目。
  • 第二步:进行测试。 让多个AI模型和另外一批人类专家完成这些任务。
  • 第三步:盲审评估。 由第三组专家对结果进行评分,他们并不知道答案来自AI还是人类。

这项工作虽然繁重,但它揭示了AI的优势领域(如软件开发)和弱点领域(如药剂师、工业工程师)。它还表明,不同模型在不同任务上的表现各不相同,例如ChatGPT更擅长担任销售经理,而Claude则是更好的财务顾问。

洞察AI的决策“倾向”

除了评估技能,了解AI在做决策时的潜在“态度”也至关重要。为了测试这一点,我让多个AI模型对我虚构的“牛油果酱无人机配送服务”(GuacaDrone)这一商业想法进行可行性评分(1-10分),并让每个模型重复评估十次。

结果显示,不同模型给出的评分差异巨大:

  • GrokMicrosoft Copilot 认为这是个好主意,评分很高。
  • GPT-5Claude 4.5 则更为谨慎,评分较低。

这种差异绝非小事。当你的AI大规模提供建议时,评分系统性地高出或低出三四分,意味着它会持续地将你引向一个完全不同的方向。

有些公司可能需要一个拥抱风险的AI,另一些则希望规避风险。无论如何,你都必须了解你的AI在关键商业问题上的“思考”方式。

你的组织需要系统性测试

随着AI日益融入我们的工作,我们必须更严肃地对待模型间的差异。对于个人用户来说,基于感觉的测试可能就足够了。但对于大规模部署AI的组织而言,挑战则完全不同。

  • 通用趋势不等于具体表现: 虽然更新、更大的模型通常更好,但在处理成千上万个真实任务时,“更好”是不够的。你需要确切地知道你的AI擅长什么
  • 微小差异会被放大: 一个在财务分析上稍差,或在风险评估上持续更激进的AI,影响的不是一个决策,而是成千上万个。

你不能依赖感觉来理解这些模式,也不能指望通用基准测试来揭示它们。你必须系统地测试AI,让它处理它将要面对的实际工作和判断。

你不应该仅凭SAT分数就聘用一位副总裁。同样,你也不应该因为一个AI知道直立人的颅容量,就选择它来为你的组织提供成千上万个决策建议。