维基媒体德国分部推出了“维基数据嵌入项目”,通过先进的向量搜索技术,让 AI 模型能更轻松地访问和理解维基百科及其姊妹平台上的近 1.2 亿条数据。该项目为 AI 开发者提供了一个经过验证的高质量数据源,用于训练和优化模型,旨在解决 AI 领域对可靠数据的迫切需求。其最终目标是推动一个开放、协作的 AI 生态系统,而不是让技术被少数大公司所控制。
一种更智能的数据访问方式
这个新系统彻底改变了 AI 与维基百科数据交互的方式。过去,开发者只能依赖于关键词搜索和专门的查询语言 (SPARQL),效率较低。现在,该项目引入了更先进的技术,使数据访问更符合现代 AI 的需求。
- 核心技术: 采用 向量语义搜索,这种技术能帮助计算机理解词语之间的含义和关联,而不仅仅是匹配字面上的字符。
- 协议支持: 结合了对 模型上下文协议 (MCP) 的支持,这是一种帮助 AI 系统与数据源进行高效沟通的标准。
- 应用场景: 新系统特别适合 检索增强生成 (RAG) 架构,允许 AI 模型在生成回答时实时拉取外部的、经过验证的信息。
例如,当查询“科学家”这个词时,数据库不仅会返回这个词的翻译,还会提供著名核科学家、曾在贝尔实验室工作的科学家名单,甚至扩展到“研究员”和“学者”等相关概念。
解决 AI 的“高质量数据”难题
当前,AI 开发者正迫切寻找可用于训练和微调模型的高质量数据源。模型的性能在很大程度上取决于其所使用数据的质量和可靠性。
- 可靠性优势: 相比于从整个互联网上抓取网页而形成的 Common Crawl 等通用数据集,维基百科的数据经过编辑审核,更加注重事实,可靠性更高。
- 规避风险: 使用高质量、来源清晰的数据可以帮助 AI 公司避免法律风险。例如,Anthropic 公司曾因使用受版权保护的作品作为训练材料而面临诉讼。
- 提升精度: 对于需要高准确度的 AI 应用来说,一个可靠的数据源至关重要。维基数据项目正好满足了这一迫切需求。
推动开放与协作的 AI 未来
该项目强调其独立于大型科技公司,旨在促进一个更加开放和民主化的 AI 发展环境。项目负责人 Philippe Saadé 明确表达了这一愿景。
“这个嵌入项目的启动表明,强大的人工智能不必由少数几家公司控制。它可以是开放的、协作的,并且旨在为每个人服务。”
通过向所有开发者开放经过验证的高质量数据,维基媒体希望确保 AI 技术的发展能够惠及更广泛的社区,而不是成为少数巨头的专属工具。