Google 利用大型语言模型 Gemini 分析了全球 500 万篇新闻报道,提炼出数百万次洪水记录,构建了名为“Groundsource”的全新数据集。通过将这些非结构化的文字信息转化为定量的地理时间序列数据,Google 训练出的模型能为全球 150 个国家提供突发洪水预警。尽管其精度在某些地区尚不及顶尖气象系统,但它为缺乏基础设施的地区提供了关键的生存保障,也开创了利用 AI 从文本中提取环境数据的新路径。
核心挑战:消失的观测数据
突发洪水(Flash floods)是全球最致命的天气事件之一,每年导致超过 5,000 人死亡。然而,它们极难被预测:
- 瞬时性与局部性: 与气温或河流流量不同,突发洪水持续时间短、波及范围小,传统传感器难以捕捉。
- 数据断层: 由于缺乏历史实测数据,先进的深度学习模型往往无法进行有效训练。
创新方案:将新闻转化为气象数据
“这是我们首次尝试利用语言模型来完成此类工作。” —— Google Research 产品经理 Gila Loike
为了弥补数据鸿沟,Google 研究人员采取了一种非常规方法:
- AI 文本挖掘: 使用 Gemini 模型筛选全球 500 万篇 新闻稿件。
- 构建 Groundsource: 识别并提取出 260 万次 不同的洪水记录,并为其打上地理标签,形成时间序列数据集。
- 模型训练: 基于这些“新闻数据”,研究人员训练了一个 长短期记忆(LSTM)神经网络,通过摄取全球天气预报信息来预测特定区域的洪水概率。
实战效果与应用范围
目前,该预测模型已在 Google 的 Flood Hub 平台上运行,为 150 个国家 的城市区域提供风险预警。
- 支持应急响应: 诸如南部非洲发展共同体(SADC)等机构已开始利用该数据,显著提升了灾害响应速度。
- 填补基础设施空白: 该项目设计的初衷是服务于那些无法负担昂贵气象监测设备的地区。
现状与未来愿景
尽管该模型表现出色,但仍存在一定的局限性:
- 分辨率限制: 目前只能识别 20 平方公里 范围内的风险。
- 精度差距: 由于未引入本地雷达实时数据,其精度尚无法完全等同于美国国家气象局等专业系统。
更大的意义在于方法论的突破: Google 团队希望这种从文字记录中提炼定量数据的方法,未来能扩展到 热浪、泥石流 等其他同样难以预测的自然灾害中,通过 AI “重塑数据版图”,为全球易受灾地区提供更公平的信息支持。