Google让AI更易获取真实世界数据,训练流程喜提福音

谷歌发布了 Data Commons 模型上下文协议 (MCP) 服务器,旨在让 AI 系统能够通过自然语言访问其庞大的公共数据集。此举的核心目标是为 AI 提供真实、高质量的数据源,从而显著减少 AI 模型在回答问题时凭空捏造信息(即“幻觉”现象),并提升其准确性。

AI 训练面临的挑战

目前,许多 AI 系统依赖于从网络上抓取的、未经核实的嘈杂数据进行训练。当缺乏可靠信息来源时,AI 倾向于自行“填补空白”,这便导致了“幻觉”的产生。因此,企业若想针对特定场景优化 AI 模型,就迫切需要大量、高质量的结构化数据集。

    • 数据质量问题: AI 常在混乱、不可靠的网络数据上训练。
    • “幻觉”现象: 在信息不足时,AI 会编造不准确的答案。
    • 优化需求: 精准的 AI 应用需要依赖可验证的优质数据。

谷歌的解决方案:开放数据访问

为了应对这些挑战,谷歌推出了基于其 Data Commons 平台的 MCP 服务器。Data Commons 自 2018 年起便开始整理来自政府、联合国等机构的公共数据。

新的 MCP 服务器充当了一座桥梁,连接了这些海量公共数据集(从人口普查到气候统计)与需要准确上下文的 AI 系统。开发者和 AI 代理现在可以通过简单的自然语言指令,直接调用这些数据。

“模型上下文协议让我们能利用大语言模型的智能,在恰当的时间选择正确的数据,而无需理解我们如何建模数据或我们的 API 如何工作。” — 谷歌 Data Commons 负责人 Prem Ramaswami

行业标准与实际应用

MCP 最初由 Anthropic 公司提出,现已成为一个开放的行业标准,被 OpenAI、微软和谷歌等公司采纳,用于将各自的 AI 模型与不同数据源集成。

谷歌不仅采纳了这一标准,还将其应用于实践。通过与非营利组织 ONE Campaign 合作,谷歌推出了 ONE Data Agent

    • 合作成果: ONE Data Agent 是一款利用 MCP 服务器的 AI 工具。
    • 具体功能: 该工具能够以通俗易懂的语言,呈现数千万个关于非洲经济和公共卫生的数据点。
    • 开发契机: 正是与 ONE Campaign 的早期合作,促使谷歌团队最终决定构建一个专用的 MCP 服务器,以更好地服务于这类需求。