Google Duo采用WaveNetEQ填补语音间隙

Refer to: https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/105304072

Abstract

Google Duo （移动设备视频通话服务）发现，其99％的呼叫需要处理数据包丢失、抖动过多或网络延迟等问题。

在这些通话中，有20％因为网络问题损失了3％以上的音频持续时间，而10％的通话则损失了至少8％的音频。

为了确保可靠的实时通信，有必要处理丢失的数据包，这个过程被称为PLC。接收方的PLC负责创建音频（或视频），以填补由丢包、过度抖动或临时网络故障造成的空白（所有这三种情况都会导致数据丢失）。

为了解决这些音频问题，Google Duo开始使用全新的PLC系统WaveNetEQ。

WaveNetEQ是基于DeepMind的WaveRNN技术生成的模型，使用大量语音数据集进行训练，以更为逼真地延续短语音段，从而使其能够完全合成丢失语音的原始波形。

该模型将应用于Duo抖动缓冲区中的音频数据。

丢包事件发生后，如果真实音频仍然存在，Duo将无缝合并合成的、真实的音频流。为了找到两个信号之间的最佳对准，该模型的输出要比实际所需要的输出多一些，并从一个到另一个交叉淡入淡出。这样可使过渡平滑，并避免明显的噪音。