这篇对谈探讨了 Brendan Foody 的公司 Mercor 如何通过聘请各领域专家来训练前沿 AI 模型。其核心论点是,要提升 AI 在诗歌等主观领域的表现,关键不在于提供海量原始文本,而在于由具备顶尖品味的专家制定精细的评分标准(rubric)来指导模型。这种方法能将少数专家的独特见解规模化,应用到数十亿用户中,也解释了为何 Mercor 愿意为一名诗人支付每小时 150 美元的高薪。
Mercor的核心业务:用专家训练AI
Mercor 公司由 22 岁的 Brendan Foody 创立,其主要业务是聘请各个领域的专家来“教导”和训练最前沿的 AI 模型。
- 专家团队:从诗人到经济学家,Mercor 寻找并雇佣那些能在特定领域提供深刻见解的顶尖人才。
- 核心任务:这些专家并非简单地提供数据,而是帮助 AI 公司建立评估框架和评分标准,以衡量和提升模型的表现。
为何高薪聘请诗人?
Mercor 因其为诗人提供 每小时 150 美元 的高薪而引人注目。这背后是其独特的价值创造模式。
- 技能的规模化:当一位顶尖诗人教会模型如何更好地理解和创作诗歌后,这种能力可以通过 AI 服务于数十亿用户。
- 价值的放大:专家的知识和品味一旦被模型学会,其价值就被极大地放大了,这使得高薪聘请成为一种合理的投资。
我们找到世界上最优秀的诗人,他们通过创建评估标准和范例来帮助衡量模型的成功程度。
训练AI的关键:评分标准与品味
与大众想象的不同,提升 AI 性能最有效的数据并非海量文本,而是结构化的评估指南。
- 评分标准 (Rubric) 的重要性:最有价值的“数据”是一个清晰的评分标准。这类似于教授用来批改学生论文的评分细则。
- 它会明确指出:如果模型的回应包含了某个关键思想,就给予奖励;如果出现某种错误,就进行惩罚。
- “品味”的价值:在诗歌等主观领域,找到拥有卓越“品味”的专家至关重要。这些人能准确判断什么样的回应能让用户感到惊艳。
- 共识与分歧:理想的专家团队既需要对“好”有基本共识,也需要存在一定程度的分歧,这样才能覆盖更多的边缘情况,让模型更具鲁棒性。
康德在他的《判断力批判》中说,品味是无法被评分标准所捕捉的东西。
当评分标准不够时
对于那些难以用规则完全定义的主观领域,还存在其他训练方法。
- 人类反馈强化学习 (RLHF):这是一种有效的替代方案。
- 让模型生成两个不同的回应。
- 由具备良好品味的专家选择他们更偏好的一个。
- 通过成千上万次的重复选择,模型能逐渐理解专家的偏好和“品味”。
知识工作的未来
AI 的发展正在重塑知识工作者的角色,Mercor 的模式揭示了未来的一个可能方向。
- 角色的转变:未来的知识工作者可能不再是从事重复性的分析工作,而是转变为构建和设计 AI 的训练环境。
- AI 辅助管理:AI 模型甚至可以反过来帮助评估人类专家的工作质量,例如识别出那些工作不投入的专家,从而提高整体效率。