Synth Daily

我与 Brendan Foody 的精彩对谈

这篇对谈探讨了 Brendan Foody 的公司 Mercor 如何通过聘请各领域专家来训练前沿 AI 模型。其核心论点是,要提升 AI 在诗歌等主观领域的表现,关键不在于提供海量原始文本,而在于由具备顶尖品味的专家制定精细的评分标准(rubric)来指导模型。这种方法能将少数专家的独特见解规模化,应用到数十亿用户中,也解释了为何 Mercor 愿意为一名诗人支付每小时 150 美元的高薪。

Mercor的核心业务:用专家训练AI

Mercor 公司由 22 岁的 Brendan Foody 创立,其主要业务是聘请各个领域的专家来“教导”和训练最前沿的 AI 模型。

  • 专家团队:从诗人到经济学家,Mercor 寻找并雇佣那些能在特定领域提供深刻见解的顶尖人才。
  • 核心任务:这些专家并非简单地提供数据,而是帮助 AI 公司建立评估框架和评分标准,以衡量和提升模型的表现。

为何高薪聘请诗人?

Mercor 因其为诗人提供 每小时 150 美元 的高薪而引人注目。这背后是其独特的价值创造模式。

  • 技能的规模化:当一位顶尖诗人教会模型如何更好地理解和创作诗歌后,这种能力可以通过 AI 服务于数十亿用户。
  • 价值的放大:专家的知识和品味一旦被模型学会,其价值就被极大地放大了,这使得高薪聘请成为一种合理的投资。

我们找到世界上最优秀的诗人,他们通过创建评估标准和范例来帮助衡量模型的成功程度。

训练AI的关键:评分标准与品味

与大众想象的不同,提升 AI 性能最有效的数据并非海量文本,而是结构化的评估指南。

  • 评分标准 (Rubric) 的重要性:最有价值的“数据”是一个清晰的评分标准。这类似于教授用来批改学生论文的评分细则。
    • 它会明确指出:如果模型的回应包含了某个关键思想,就给予奖励;如果出现某种错误,就进行惩罚。
  • “品味”的价值:在诗歌等主观领域,找到拥有卓越“品味”的专家至关重要。这些人能准确判断什么样的回应能让用户感到惊艳。
  • 共识与分歧:理想的专家团队既需要对“好”有基本共识,也需要存在一定程度的分歧,这样才能覆盖更多的边缘情况,让模型更具鲁棒性。

康德在他的《判断力批判》中说,品味是无法被评分标准所捕捉的东西。

当评分标准不够时

对于那些难以用规则完全定义的主观领域,还存在其他训练方法。

  • 人类反馈强化学习 (RLHF):这是一种有效的替代方案。
    • 让模型生成两个不同的回应。
    • 由具备良好品味的专家选择他们更偏好的一个。
    • 通过成千上万次的重复选择,模型能逐渐理解专家的偏好和“品味”。

知识工作的未来

AI 的发展正在重塑知识工作者的角色,Mercor 的模式揭示了未来的一个可能方向。

  • 角色的转变:未来的知识工作者可能不再是从事重复性的分析工作,而是转变为构建和设计 AI 的训练环境
  • AI 辅助管理:AI 模型甚至可以反过来帮助评估人类专家的工作质量,例如识别出那些工作不投入的专家,从而提高整体效率。