人工智能模型在真实经济任务中的表现已接近行业专家,且效率高出百倍,同时在预测初创企业成功率方面也超越了顶级风险投资人。这一系列进展表明,AI正以前所未有的速度融入经济的各个角落。尽管像瑞士推出的“主权AI”模型在性能上仍有差距,但变革性AI的到来已成定局,促使经济学家呼吁紧急研究其对社会财富分配、权力结构和全球关系的深远影响。
AI在真实经济任务中的表现
OpenAI 发布了名为 GDPval 的基准测试,旨在评估AI模型在真实经济活动中的能力。这可能成为衡量AI经济影响力的重要标准。
- 测试内容: GDPval 包含了来自 9个行业、44个职业 的1230项专业任务,如律师、会计师、软件开发人员和护士等。这些任务由平均拥有14年经验的行业专家设计和审查。
- 评估方式: 任务形式多样,包括文档、幻灯片、图表和电子表格,并由专家进行盲审,将AI的成果与人类专家的成果进行比较排名。
- 核心结果: 目前最顶尖的模型(如 Claude Opus 4.1 和 GPT-4o)已经接近行业专家的工作质量。更重要的是,它们完成这些任务的速度比人类专家 快约100倍,成本则低约100倍。
AI公司正在构建基准,测试其系统在经济中各种工作岗位上的表现——而它们已经非常擅长了!这不是正常现象。我们正在发现,这些系统与人类一样,能够融入约44个不同的“经济生态位”。
“主权AI”的挑战
一个由瑞士多家学术机构组成的联盟发布了 Apertus 系列模型,旨在打造“主权AI”。这些模型使用公开数据进行训练,并尊重内容排除协议。
- 性能表现: 尽管在多语言能力上表现尚可,但 Apertus 模型在大多数关键基准测试(如推理能力)上 无法与主流的开源模型(如 Llama-3.3)竞争。
- 背后的动机: Apertus 的出现反映了一种“AI民族主义”的趋势。美国和中国以外的国家意识到AI的重要性,并希望通过各种方式在未来的“AGI牌桌”上获得一席之地。
- 现实差距: 要想真正参与竞争,可能需要在单次训练中投入数百万个芯片。目前,像 Apertus 这样的项目在规模上还相差几个数量级。
经济学界需要重新思考AI的影响
斯坦福大学等机构的研究人员发表论文,敦促经济学界认真对待变革性AI(Transformative AI)可能在未来几年内带来的巨大社会挑战。他们将 变革性AI 定义为“能够使生产率增长率持续达到历史平均水平3至5倍的人工智能”。
研究人员提出了经济学界应关注的 21个关键问题,分为九大类:
- 经济增长的模式与瓶颈
- 发明、发现与创新的速度
- 收入与财富分配的不平等
- 决策权与经济权力的集中
- 地缘经济与国际关系结构
- 信息、沟通与知识的传播
- AI安全与对齐社会福祉
- 人类的意义感与幸福感
- 社会转型期的动态与危机
这背后最根本的问题是:“在一个传统劳动力可能被大幅削弱的世界里,如何公平地分享收益,以及如何改革税收体系?”
AI模型预测初创企业成功率超越风险投资人
牛津大学等机构发布了 VCBench,一个测试AI模型预测初创企业成功率的基准。该测试包含9000份匿名的创始人简介,其中9%的创始人最终取得了成功(公司被收购、获得高额融资或高估值IPO)。
- 人类专家表现: 顶级的风险投资人(Tier-1 VCs)的预测精确率为 23.5%。
- AI模型表现: 相比之下,GPT-4o 的精确率达到了 59.1%,而 DeepSeek-Reasoner 的精确率也达到了31.8%。
- 重要启示: 结果表明,即使在信息模糊、充满干扰因素的复杂数据集中,大型语言模型也能识别出人类专家可能忽略的潜在模式。
我不认为风险投资人应该为此感到担忧。但我确实怀疑,他们可能已经在向AI模型咨询投资建议了。
AI的指数级进步是事实
尽管当前流行一种说法,认为AI的进展正在放缓或AI是一个泡沫,但事实是,这项技术仍在持续变得更好。
“人们注意到,虽然AI现在可以编写程序、设计网站,但它仍然会犯错。然后他们不知何故就得出结论,认为AI永远无法达到人类水平。但就在几年前,让AI做这些事还完全是科幻小说!”
根据多年来跨行业的指数级性能提升趋势,一个相对保守的推断是,2026年将是AI广泛融入经济的关键一年。