Google 正在用旧新闻报道和 AI 预测突发洪水

Google 利用大型语言模型 Gemini 分析了全球 500 万篇新闻报道，提炼出数百万次洪水记录，构建了名为“Groundsource”的全新数据集。通过将这些非结构化的文字信息转化为定量的地理时间序列数据，Google 训练出的模型能为全球 150 个国家提供突发洪水预警。尽管其精度在某些地区尚不及顶尖气象系统，但它为缺乏基础设施的地区提供了关键的生存保障，也开创了利用 AI 从文本中提取环境数据的新路径。

核心挑战：消失的观测数据

突发洪水（Flash floods）是全球最致命的天气事件之一，每年导致超过 5,000 人死亡。然而，它们极难被预测：

瞬时性与局部性： 与气温或河流流量不同，突发洪水持续时间短、波及范围小，传统传感器难以捕捉。
数据断层： 由于缺乏历史实测数据，先进的深度学习模型往往无法进行有效训练。

创新方案：将新闻转化为气象数据

“这是我们首次尝试利用语言模型来完成此类工作。” —— Google Research 产品经理 Gila Loike

为了弥补数据鸿沟，Google 研究人员采取了一种非常规方法：

AI 文本挖掘： 使用 Gemini 模型筛选全球 500 万篇 新闻稿件。
构建 Groundsource： 识别并提取出 260 万次 不同的洪水记录，并为其打上地理标签，形成时间序列数据集。
模型训练： 基于这些“新闻数据”，研究人员训练了一个 长短期记忆（LSTM）神经网络，通过摄取全球天气预报信息来预测特定区域的洪水概率。

实战效果与应用范围

目前，该预测模型已在 Google 的 Flood Hub 平台上运行，为 150 个国家 的城市区域提供风险预警。

支持应急响应： 诸如南部非洲发展共同体（SADC）等机构已开始利用该数据，显著提升了灾害响应速度。
填补基础设施空白： 该项目设计的初衷是服务于那些无法负担昂贵气象监测设备的地区。

现状与未来愿景

尽管该模型表现出色，但仍存在一定的局限性：

分辨率限制： 目前只能识别 20 平方公里 范围内的风险。
精度差距： 由于未引入本地雷达实时数据，其精度尚无法完全等同于美国国家气象局等专业系统。

更大的意义在于方法论的突破： Google 团队希望这种从文字记录中提炼定量数据的方法，未来能扩展到 热浪、泥石流 等其他同样难以预测的自然灾害中，通过 AI “重塑数据版图”，为全球易受灾地区提供更公平的信息支持。