Lyra音频编解码器，支持3kbps比特率的高质量语音通话

本文共计1345字，预计阅读4分钟

我们经常写一些文章来介绍视频编解码的新格式，如AV1或H.266，并且最近还介绍了AVIF图片格式，该格式可给WebP和JPEG格式图片提供更好的质量/压缩比，除此以外我们也在音频编解码格式方面做了一些报道。

值得注意的是，我们留意到在2017年推出的Opus 1.2提供了还不错的语音质量，并且比特率低至12 kbps，2019 年发布的Opus 1.3对解码格式做了改进，提供比特率最低可达9kbps的高语音质量。但Google AI 最近推出了 Lyra这个用于语音压缩的极低比特率编解码格式，可实现比特率低至3kbps的高质量语音。

在我们讨论Lyra编解码格式的细节之前，先来看一下谷歌分别用3kbps的Lyra、6kbps的Opus（Opus的最低比特率）和3kbps的Speex编码参考语音后用户的反馈比较。用户反映Lyra的声音最好，甚至接近于原声。其实你可以自己试一试看看实际效果。

纯净语音

Original

Opus @ 6kbps

Lyra @ 3kbps

Speex @ 3kbps

噪音环境

Original

Opus @ 6kbps

Lyra @ 3kbps

Speex @ 3kbps

Speex 3kbps的所有样本语音听起来都很糟糕。我觉得Opus 6kbps和Lyra 3kbps的纯净语音样本中听起来差不多，但Lyra在噪音环境下对背景语音的再现性更好。

那么，Lyra是如何工作的呢？Google AI解释说，Lyra编解码器的基本架构依赖于它Log-Mel频谱的特征、或独特的语音属性，来代表不同频段的语音能量，每40ms从语音中提取一次，然后进行压缩传输。最后在接收端，一个生成模型使用这些特征来重新创建语音信号。

Lyra的工作原理类似于美国国防部（US DoD）为军事应用和卫星通信、安全语音和安全无线电设备制定的混合激励线性预测（MELP）语音编码标准。

Lyra还利用听起来很自然的生成模型来保持低比特率，同时实现高质量，形成了类似于更高比特率编解码器实现的质量。

以这些模型为基准，我们开发了一种新模型，能够使用最少的数据量来重建语音。Lyra利用这些新的听起来很自然的模型的功能来保持参数编解码器的低比特率，同时实现高质量，可与当今大多数流媒体和通信平台中使用的最先进的波形编解码器相媲美。波形编解码器的缺点要通过逐个样本压缩和发送信号来实现这种高质量，因而需要更高的比特率，在大多数情况下，其并不是实现自然语音的必备条件。

生成模型中的一个问题是其计算的复杂性。Lyra通过使用成本更低的递归生成模型，即WaveRNN改进版，即可避免这个问题，该模型以较低的速率工作，但会并行生成不同频率范围内的多个信号，随后以需求的采样率将这些信号组合成单个输出信号。这种方式不仅能使Lyra在云服务器上运行，还能在中低端手机上实时运行（处理延迟为90ms，与其他传统语音编解码格式一致）。然后，该生成模型在数千小时的语音数据上进行训练并优化，类似于WaveNet，可以准确地重新创建输入音频。

即使在信号质量差、带宽低和/或网络连接拥塞的情况下，Lyra 也能实现清晰、高质量的语音通话。该格式并非仅适用于英语，谷歌通过使用开源音频库以及超过 70 种语言的演讲者对模型进行了数千小时的音频训练，然后与专家和众包（Crowdsourced）听众一起验证音频质量。（众包：即企业利用互联网来将工作分配出去、发现创意或解决技术问题。）

采用AV1视频编解码格式与Lyra音频编解码格式结合，该公司还希望通过 56kbps拨号调制解调器连接来实现视频通话。Google Duo视频通话应用将是最早使用Lyra音频编解码格式的应用之一，它将在非常低的带宽连接上使用。该公司还计划使用GPU和AI加速器进行加速，并已开始研究是否可以利用Lyra使用的技术来创建一个用于音乐和非语音音频的通用音频编解码格式。更多相关细节你可以在Google AI blog post中找到。

Rita Wang

文章翻译者：Rita Wang，CNX中文站翻译人员，文字功底扎实，将科技文献以通俗易懂的形式呈现给读者，对开源硬件、AI、IoT等领域多有涉猎。

分享这篇文章