Synth Daily

从 GPT-3 到 Gemini 3 的三年

谷歌最新的 Gemini 3 模型展示了人工智能在短短三年内的惊人进化:从仅仅能生成文本的聊天机器人,转变为能够编写代码、设计交互界面甚至进行深度学术研究的全能数字助手。通过结合 Antigravity 等工具,AI 现在可以像一名具备博士生水平的“数字同事”一样,在人类的指导下自主规划并执行复杂的计算机任务。这标志着人机关系正在发生根本性转变——人类的角色正从“纠错者”升级为“管理者”。

三年的跨越:从“描述”到“构建”

为了直观展示 AI 的进步,作者没有列举枯燥的基准测试数据,而是让 Gemini 3 重现了一个三年前的创意场景。

  • 2022年 (GPT-3 时代): 当被要求展示一个“由糖果驱动的超光速飞船”时,AI 只能写出一段连贯的文字描述或一首简单的诗。
  • 2025年 (Gemini 3 时代): 面对同样的提示,AI 编写并构建了一个完全可交互的网页游戏。它不仅编写了引擎代码,还设计了界面,让用户可以真正驾驶飞船。

这种差异揭示了一个核心转变:不要再把 AI 仅仅视为聊天机器人,而应将其视为一种全新的生产力工具。

Antigravity:不仅仅是编程工具

谷歌随 Gemini 3 推出了名为 Antigravity 的工具。虽然它看起来像是一个面向程序员的代码生成器(类似于 Claude Code 或 OpenAI Codex),但它的意义远超于此。

一个驱动 AI 发展的基本视角是:你在电脑上做的每一件事,归根结底都是代码。如果 AI 能处理代码,它就能做任何电脑用户能做的事。

这意味着 AI 不仅能写程序,还能:

  • 构建数据仪表盘。
  • 管理和操作网站。
  • 读取和整理本地文件。
  • 制作演示文稿。

在实际测试中,作者通过简单的英语指令,让 AI 代理(Agent)读取本地文件夹中的所有过往文章,自行进行网络搜索比对,最终建立了一个网站来展示作者对 AI 预测的准确性。在这个过程中,AI 展现出了规划能力——它知道该做什么,以及何时需要停下来寻求人类的批准。

挑战“博士级”智能

为了测试业界常说的“AI 已具备博士级智能”这一说法,作者给 Gemini 3 布置了一项高难度的学术任务:

  1. 处理混乱数据: 给定一堆十年前的、格式混乱甚至损坏的众筹研究数据(STATA 格式)。
  2. 自主选题: 要求 AI 不仅是分析众筹,还要结合创业或商业战略领域的理论话题,撰写一篇原创论文。
  3. 深度执行: 在几乎没有额外提示的情况下,AI 清洗了数据,提出了原创假设,进行了统计测试,并输出了一份 14 页的论文。

结果评估: Gemini 3 表现得像一名称职的研究生

  • 优点: 它甚至发明了一种利用自然语言处理来衡量“众筹创意独特性”的新方法,并为此编写和执行了代码。
  • 缺点: 它的统计方法仍需改进,部分理论推导略显过度。

这表明,虽然 AI 能够完成惊人的工作,但它仍然需要一位“导师”来指引方向和把控质量。

结论:从“纠错”到“管理”

Gemini 3 的出现证明了 AI 的发展并未放缓。我们正在从“聊天机器人时代”迈向“数字同事时代”

在这个新阶段,“人在回路中”(Human in the loop)的含义发生了质的变化:

  • 过去: 人类主要负责修复 AI 犯下的愚蠢错误。
  • 现在: 人类主要负责指导和管理 AI 的工作流程。

虽然 Gemini 3 并不完美,但它是一个能够思考和执行的合作伙伴。对于用户而言,最大的变化在于学会如何像管理团队成员一样,去管理这些智能代理。