OpenAI 低调上线 Skills 功能,现已登陆 ChatGPT 和 Codex CLI

OpenAI 已悄然为其产品 ChatGPT 和 Codex CLI 添加了对“Skills”功能的支持。该机制最初由 Anthropic 提出,旨在通过简单的文件夹和 Markdown 文件让 AI 工具能够调用特定能力。在 ChatGPT 中,这项功能增强了其代码解释器处理文档(如 PDF)的能力;而在 Codex CLI 工具中,它允许用户通过自定义脚本来扩展其功能。这种轻量级、易于跨平台实现的特性,标志着 AI 工具模块化发展的一个重要方向。

ChatGPT 中的 Skills 功能

ChatGPT 的 Code Interpreter 功能现在内置了一个新的技能文件夹,允许其处理更复杂的文件类型。

    • 新增技能文件夹: 用户现在可以访问 /home/oai/skills 文件夹,其中包含了处理特定任务的预设技能。
    • 支持的文件类型: 目前支持处理 电子表格、docx 文档和 PDF
    • 独特的 PDF 处理方式: 与传统的文本提取不同,该功能会将 PDF 的每一页渲染成 PNG 图像,然后利用 视觉模型(Vision Model)进行解析
    • 保留完整信息: 这种方法的优势在于可以完整保留文档原有的 布局、图表和图形信息,而这些信息在纯文本提取中通常会丢失。

一个实际测试表明,当被要求根据实时信息创建一份 PDF 报告时,模型首先会读取 PDF 创建技能的指南,然后进行网络搜索,最终生成一份完整的 PDF 文件。

Codex CLI 中的 Skills 功能

OpenAI 的开源命令行工具 Codex CLI 也增加了对 skills.md 的实验性支持,允许开发者自定义和扩展工具的能力。

    • 自定义技能: 用户可以在 ~/.codex/skills 目录中添加自己的技能文件夹,每个技能由一个 Markdown 文件定义。
    • 启用方式: 需要使用 --enable skills 命令行选项来激活这一实验性功能。
    • 实际应用案例: 用户可以创建一个用于 编写 Datasette 插件 的技能。在启用该技能后,只需用自然语言描述需求,Codex CLI 就能自动在指定文件夹中生成完整的插件代码。

Skills 是一个重要的发展方向

“Skills”机制虽然规范非常简单,但其潜力巨大。OpenAI 的快速跟进表明,这种轻量级、易于实现的方法很可能成为行业的一个重要趋势。

“Skills”基于一个非常轻量级的规范…… 但如果能有一个地方对其进行正式记录,那将是一件好事。这可能是一个很好的倡议,由新成立的 Agentic AI 基金会来承担。

这种简单、开放的实现方式,使得不同平台可以轻松采纳和扩展,为未来 AI 工具的 互操作性和模块化 奠定了基础。