全新 Sam Audio 模型,重塑音频编辑体验

谷歌发布了一款名为 SAM Audio 的先进 AI 模型,旨在重塑音频编辑体验。该模型能够通过文本、视觉或时间段等多种提示方式,从复杂的音频混合物中轻松分离出特定的声音。它统一了过去分散的音频处理工具,让普通用户也能实现专业级的音频分离,例如隔离乐器、提取人声或消除噪音。

SAM Audio 的目标是让专业级的音频分离变得前所未有的便捷和易于使用,其直观的操作方式模仿了人们与声音自然互动的方式。

统一的音频分离模型

在 SAM Audio 出现之前,音频分割和编辑领域工具繁多且功能单一。SAM Audio 作为一个统一的模型,首次支持了多种符合人类思维习惯的交互方式,并在各种真实场景中展现出卓越的性能。

它有潜力改变音频和视频编辑的方式,并推动以下领域的创新:

    • 音乐制作
    • 播客和影视后期
    • 科学研究
    • 无障碍功能开发

支持多种交互方式

SAM Audio 提供了三种核心的提示方法,这些方法可以单独使用,也可以任意组合,从而实现精确、直观的音频控制。

    • 文本提示: 只需输入“狗叫”或“歌声”等文字描述,即可提取相应的声音片段。
    • 视觉提示: 在视频中点击发出声音的人或物体,模型就能自动分离出其对应的音频。
    • 时间段提示: 标记目标音频出现的时间段,这是一种行业首创的方法,可以直接从时间维度进行分离。

如何体验

用户现在可以在 Segment Anything Playground 平台上体验 SAM Audio 的强大功能。该平台提供了官方的音视频素材,用户也可以上传自己的文件进行测试。此外,该模型也已开放下载。