我与 Brendan Foody 的精彩对谈

这篇对谈探讨了 Brendan Foody 的公司 Mercor 如何通过聘请各领域专家来训练前沿 AI 模型。其核心论点是，要提升 AI 在诗歌等主观领域的表现，关键不在于提供海量原始文本，而在于由具备顶尖品味的专家制定精细的评分标准（rubric）来指导模型。这种方法能将少数专家的独特见解规模化，应用到数十亿用户中，也解释了为何 Mercor 愿意为一名诗人支付每小时 150 美元的高薪。

Mercor的核心业务：用专家训练AI

Mercor 公司由 22 岁的 Brendan Foody 创立，其主要业务是聘请各个领域的专家来“教导”和训练最前沿的 AI 模型。

专家团队：从诗人到经济学家，Mercor 寻找并雇佣那些能在特定领域提供深刻见解的顶尖人才。
核心任务：这些专家并非简单地提供数据，而是帮助 AI 公司建立评估框架和评分标准，以衡量和提升模型的表现。

为何高薪聘请诗人？

Mercor 因其为诗人提供 每小时 150 美元 的高薪而引人注目。这背后是其独特的价值创造模式。

技能的规模化：当一位顶尖诗人教会模型如何更好地理解和创作诗歌后，这种能力可以通过 AI 服务于数十亿用户。
价值的放大：专家的知识和品味一旦被模型学会，其价值就被极大地放大了，这使得高薪聘请成为一种合理的投资。

我们找到世界上最优秀的诗人，他们通过创建评估标准和范例来帮助衡量模型的成功程度。

训练AI的关键：评分标准与品味

与大众想象的不同，提升 AI 性能最有效的数据并非海量文本，而是结构化的评估指南。

评分标准 (Rubric) 的重要性：最有价值的“数据”是一个清晰的评分标准。这类似于教授用来批改学生论文的评分细则。
- 它会明确指出：如果模型的回应包含了某个关键思想，就给予奖励；如果出现某种错误，就进行惩罚。
“品味”的价值：在诗歌等主观领域，找到拥有卓越“品味”的专家至关重要。这些人能准确判断什么样的回应能让用户感到惊艳。
共识与分歧：理想的专家团队既需要对“好”有基本共识，也需要存在一定程度的分歧，这样才能覆盖更多的边缘情况，让模型更具鲁棒性。

康德在他的《判断力批判》中说，品味是无法被评分标准所捕捉的东西。

当评分标准不够时

对于那些难以用规则完全定义的主观领域，还存在其他训练方法。

人类反馈强化学习 (RLHF)：这是一种有效的替代方案。
- 让模型生成两个不同的回应。
- 由具备良好品味的专家选择他们更偏好的一个。
- 通过成千上万次的重复选择，模型能逐渐理解专家的偏好和“品味”。

知识工作的未来

AI 的发展正在重塑知识工作者的角色，Mercor 的模式揭示了未来的一个可能方向。

角色的转变：未来的知识工作者可能不再是从事重复性的分析工作，而是转变为构建和设计 AI 的训练环境。
AI 辅助管理：AI 模型甚至可以反过来帮助评估人类专家的工作质量，例如识别出那些工作不投入的专家，从而提高整体效率。