Synth Daily

OpenAI 更新了 ChatGPT 的语音输入,这次变化有多大?

OpenAI 近期更新了 ChatGPT 的语音输入功能,旨在消除人机对话的障碍,使其体验更加无缝。此次更新的核心变化是用户不再需要进入一个独立的语音模式,可以直接在主聊天界面中使用语音。这项改进支持在对话中实时显示文字回答和图片等视觉内容,并且允许用户在 AI 回答过程中随时打断并提问,从而实现更接近人类交流方式的自然互动。这一系列调整标志着 AI 语音交互正朝着更流畅、更具互动性的方向发展。

主要变化

与过去类似 Siri 或 Google Assistant 的语音助手体验不同,新的 ChatGPT 语音功能不再是一个独立的、需要等待其完成回应的交互流程。

  • 无需切换模式: 用户可以直接在聊天界面中开始语音对话。
  • 实时反馈: 可以在说话的同时,看到文字回答和相关图片、地图等视觉内容实时出现在屏幕上。
  • 保留旧版选项: 对于习惯了旧版操作的用户,依然可以在设置中切换回“独立模式”。

最具变革性的功能:随时打断

新功能最引人注目的地方,在于它让对话变得更像是双向交流,而不是单向的“提问-等待-回答”。

在官方演示中,用户在 ChatGPT 介绍糕点的过程中,直接打断并询问某个法式糕点的发音,而 ChatGPT 则会立即暂停介绍,转而回答这个新问题。这种能力是与传统语音助手的根本区别。

这种无缝的双向互动是与声音(哪怕是软件生成的声音)交流时一种自然得多的方式。

用户不必再说“嘿 Siri”这样的唤醒词来强行中断,也不必耐心等 AI 说完一长串内容才能提出补充问题。这种可被打断的特性,让整个交流过程的体验实现了质的飞跃,使人机对话向着真正自然的沟通迈出了关键一步。