以文本翻译闻名的 DeepL 公司现已将其技术扩展至语音领域,推出了一套实时语音翻译产品。该方案旨在通过 API、移动应用以及与 Zoom 和 Teams 等平台的集成,为会议、移动对话和一线员工等多种场景提供低延迟、高准确度的翻译服务。尽管目前的技术依赖于“语音-文本-语音”的转换过程,但公司计划未来开发更直接的端到端语音翻译模型,同时也将面临来自其他专业公司的竞争。
从文本到语音的自然延伸
在文本和文档翻译领域取得成功后,DeepL 认为语音翻译是其发展的自然下一步。公司指出,当前市场上缺乏足够出色的实时语音翻译产品。
实时翻译面临的主要挑战在于,如何在降低延迟(从说话到播放翻译音频的延迟)和保持结果准确性之间取得平衡。
核心功能与应用场景
DeepL 的新产品套件覆盖了多种实际应用场景,旨在消除语言障碍。
会议集成: 为 Zoom 和 Microsoft Teams 等平台提供插件。与会者可以收听实时翻译的音频,或在屏幕上阅读同步翻译的文本。该功能目前处于早期测试阶段,企业可申请加入等候名单。
移动与网页对话: 支持个人之间或远程进行的移动端和网页端对话翻译。
群组交流: 在培训或研讨会等场合,参与者可通过扫描二维码加入一个群组对话,实现多语言的无缝交流。
开放 API: 发布 API 接口,允许外部开发者和企业基于 DeepL 的技术构建定制化应用,例如用于多语言呼叫中心。
技术原理与未来方向
DeepL 控制着整个语音翻译技术栈,并计划持续优化其模型。
当前技术流程: 现阶段的系统遵循 “语音转文本 → 文本翻译 → 文本转语音” 的流程。DeepL 相信其在文本翻译领域积累多年的经验,能为其带来翻译质量上的优势。
定制化学习: 该技术能够学习并适应特定的词汇,例如行业术语、公司名称和个人姓名,从而提高翻译的准确性。
未来目标: 公司长远的目标是开发一个端到端的语音翻译模型,该模型将跳过中间的文本转换步骤,直接完成从一种语言的语音到另一种语言的语音的转换。
主要市场竞争者
在语音翻译和处理领域,DeepL 面临着来自其他资金雄厚的初创公司的竞争。
- Sanas: 使用人工智能实时修改说话者的口音,其主要目标客户是呼叫中心。
- Camb.AI: 专注于为媒体和娱乐公司提供语音合成与翻译,帮助他们大规模地进行视频内容的配音和本地化。