美国华盛顿大学近期公布了一项创新性的可穿戴设备技术,该技术实现了“空间语音翻译”功能。在多人对话的环境中,这项技术能够通过双耳耳机实时完成语音翻译,并保留每位讲话者的声音特征与空间方位信息。
这项技术可以让用户佩戴耳机时,将不同发言者的语言即时翻译成用户的母语,同时保持每个人声音的独特性以及讲话方向的感知,从而让用户清楚地识别出谁在说什么内容。
相比目前常见的翻译工具,这种新方法在两个方面实现了突破:一是能够在多人同时讲话的情况下有效运行,二是翻译后的语音不再单一统一,而是保留了每位讲话者原本的声音风格和空间位置。研究团队整合了多项技术,包括音源分离、空间定位、实时语音翻译和双耳音频渲染,构建出一个完整的系统。
研究中实现的关键技术突破主要有三个方面:
第一,研究人员将空间划分为多个角度区域,利用神经网络对每个区域内可能出现的讲话者进行识别,从而实现精准的音源分离与定位;
第二,开发出可在 Apple 芯片上实时运行的语音翻译模型,能够保留原始讲话者的声音质量和情感表达;
第三,设计了一种双耳音频渲染方法,使得翻译后的声音仿佛来自原讲话者的方向,增强了听觉的沉浸感。
在实验过程中,研究团队使用市面上常见的降噪耳机和双耳耳机,在搭载苹果 M2 芯片的设备上成功实现了从法语、德语、西班牙语到英语的实时翻译。测试结果显示,10 名受试者在多种场景下均能良好使用该系统,表明其具备较强的适应能力。
后续评估中,29 名参与者的反馈显示,该系统在多人交流场景中表现优于传统翻译工具,不仅提升了翻译准确性,也更容易辨别发言者身份。此外,在关于空间感知的测试中,用户能够准确判断翻译语音的来源方向,几乎与原始声音的感知无差别。
相关研究论文已发表,编号为 https://doi.org/10.1145/3706598.3713745。
本文属于原创文章,如若转载,请注明来源:“空间语音翻译技术突破”https://smartwear.zol.com.cn/987/9871225.html