Skip to content Skip to footer

谷歌人工智能研究推出 Translatotron 3:尖端的无监督语音转语音……

image-20231217152934942

TL;博士:

- Translatotron 3 是 Google AI 推出的突破性无监督语音到语音翻译 (S2ST) 技术。

- 它通过仅从单语数据中学习来解决稀缺的并行语音数据的挑战。

- 该架构包括使用 SpecAugment 进行预训练、使用 MUSE 进行无监督嵌入映射和反向转换。

- Translatotron 3 在翻译质量、说话人相似度和语音质量方面优于现有模型。

- 它保留了非文本语音属性,如停顿和语速,提供与真实音频相媲美的自然度。

- 这项创新有可能通过弥合语言鸿沟和增强 S2ST 的多功能性来彻底改变全球通信。

主要AI新闻:

在语言技术领域,语音到语音翻译 (S2ST) 改变了游戏规则,打破了语言障碍并促进了全球交流。然而,由于并行语音数据的稀缺,它的进展受到阻碍,使大多数现有模型依赖于监督设置,并努力解决翻译语音和从合成训练数据中重建语音属性的复杂性。

Google AI 之前在这一领域的努力,Translatotron 1 和 Translatotron 2,通过直接翻译语言之间的语音取得了值得称赞的进步。然而,他们受到对监督训练的依赖的限制,在监督训练中,并行语音数据是一种稀有商品。问题的关键在于获得足够的并行数据的挑战,这使得 S2ST 模型的训练变得复杂。进入 Translatotron 3,这是 Google 研究团队推出的突破性解决方案。

敏锐的研究人员认识到,大多数公开的语音翻译数据集要么是半合成的,要么是完全从文本合成的,这给教授模型翻译艺术和准确重建文本中嵌入的语音属性带来了额外的挑战。作为回应,Translatotron 3 通过采用无监督 S2ST 的概念迎来了范式转变,这种方法试图仅从单语数据中学习翻译任务。这项创新为跨不同语言对的翻译开辟了新的视野,并引入了翻译非文本语音属性的能力,包括停顿、语速和说话者身份。

Translatotron 3 的架构围绕三个关键组件展开,这些组件经过战略性设计,旨在应对无监督 S2ST 的挑战:

- 使用 SpecAugment 作为掩码自动编码器进行预训练: 整个模型作为掩码自动编码器进行预训练,利用 SpecAugment 的强大功能,SpecAugment 是一种简单而有效的语音识别数据增强技术。SpecAugment 对输入音频的对数梅尔频谱图进行操作,增强了编码器的泛化能力。

- 基于多语言无监督嵌入映射 (MUSE):Translatotron 3 利用 MUSE,这是一种在未配对语言上训练的技术,使模型能够在源语言和目标语言之间培养共享的嵌入空间。这种共享的嵌入空间简化了输入语音的编码,使其更加高效和有效。

- 通过反向翻译的重建损失:该模型的训练方案结合了无监督的 MUSE 嵌入损失、重建损失和 S2S 反向翻译损失。在推理过程中,共享编码器将输入编码到多语言嵌入空间中,随后由目标语言解码器进行解码。

Translatotron 3 的训练方法包括带有重建和反向翻译术语的自动编码。在第一阶段,网络学习使用MUSE损失和重建损失将输入自动编码到多语言嵌入空间中,确保网络生成有意义的多语言表示。第二阶段的重点是训练网络使用反向翻译损失来翻译输入频谱图,并应用MUSE损失和重建损失来加强潜在空间的多语言性质。SpecAugment在这两个阶段都发挥着至关重要的作用,保证了有意义的财产的获得。

对 Translatotron 3 的实证评估强调了其在基线级联系统中的优越性,尤其是在保留对话细微差别方面表现出色。该模型在翻译质量、说话人相似度和语音质量方面表现出卓越的表现。尽管 Translatotron 3 具有无人监督的性质,但它被证明是一个强大的解决方案,其结果超越了现有系统。它能够实现类似于地面真实音频样本的语音自然度,由平均意见得分 (MOS) 衡量,这突显了其在真实场景中的有效性。

Translatotron 3 是应对无监督 S2ST 挑战的开创性解决方案,该挑战由并行语音数据的稀缺性带来。通过仅从单语数据中学习并利用MUSE的强大功能,该模型实现了无与伦比的翻译质量,同时保留了关键的非文本语音属性。研究团队的创新方法标志着在使语音到语音翻译在广泛的语言对中更加通用和有效方面迈出了一大步。Translatotron 3 在超越现有模型方面取得了巨大成功,这表明它有可能彻底改变该领域并提升不同语言社区之间的交流。在即将到来的努力中,该团队的目标是将该模型扩展到包含更多语言,并探索其在零样本 S2ST 场景中的适用性,从而进一步扩大其对全球通信的影响。