全新 Sam Audio 模型，重塑音频编辑体验

谷歌发布了一款名为 SAM Audio 的先进 AI 模型，旨在重塑音频编辑体验。该模型能够通过文本、视觉或时间段等多种提示方式，从复杂的音频混合物中轻松分离出特定的声音。它统一了过去分散的音频处理工具，让普通用户也能实现专业级的音频分离，例如隔离乐器、提取人声或消除噪音。

SAM Audio 的目标是让专业级的音频分离变得前所未有的便捷和易于使用，其直观的操作方式模仿了人们与声音自然互动的方式。

统一的音频分离模型

在 SAM Audio 出现之前，音频分割和编辑领域工具繁多且功能单一。SAM Audio 作为一个统一的模型，首次支持了多种符合人类思维习惯的交互方式，并在各种真实场景中展现出卓越的性能。

它有潜力改变音频和视频编辑的方式，并推动以下领域的创新：

SAM Audio 提供了三种核心的提示方法，这些方法可以单独使用，也可以任意组合，从而实现精确、直观的音频控制。

用户现在可以在 Segment Anything Playground 平台上体验 SAM Audio 的强大功能。该平台提供了官方的音视频素材，用户也可以上传自己的文件进行测试。此外，该模型也已开放下载。