在打电话时消除环境噪音的噪音消除对于舒适的对话至关重要。事实上,日常生活本身就被很多环境噪音所包围。当您从城市或机场拨打电话时,您会听到相同的环境噪音。问题是找到一种完全阻止噪音的产品并不总是那么容易。然而,2Hz项目正面临着使用深度学习建立实际噪声消除能力的挑战。
它是通过运行建立的噪音消除系统。演示视频在环境噪音扰乱耳朵的环境中记录马匹。录制的声音显然很嘈杂,因为它很吵。在这里,2Hz噪声消除使声音清晰。即使背景中几乎没有噪音,也不是。
另外,用警察巡逻车的警笛声录制的声音也通过2Hz系统再现,甚至不能知道警报器是否仅通过清晰的声音从后面抬起。 NVIDIA已经实现了如此高水平的噪声消除,但是构建这样的噪声抑制系统一直非常困难。
由2Hz实现的噪声消除功能抑制从首先向另一个人打电话的第一个人听到的噪声。相比之下,有源噪声消除ANC(有源噪声消除)是耳机。 ANC旨在防止在耳机或耳机后面听到噪音,并防止它们到达耳朵。另一方面,2Hz侧侧重于抑制另一方听到的噪声。
在谈话时抑制噪音的能力近年来取得了相当大的技术进步。最新的智能手机比10年前安静得多,这些功能都是用两个或更多麦克风实现的。一个通常放置在用户在通话时说话能力良好的位置,而另一个位于环境听起来更好的位置,例如远离口部麦克风。如果扬声器主要是拾取声音,则后置麦克风会收集周围环境的噪音,并通过软件滤除噪音。
但是,如果您不能像智能手表那样放置两个以上的小型麦克风,或者用户或设备位置错误或正在摇晃,则此技术无法正常工作。此外,就多个麦克风而言,生产成本也增加。出于这个原因,2Hz已经创建了一种结构,使用单个麦克风而不是多个麦克风来实现噪声消除。
数字信号处理算法通常用于噪声消除,仅消除可听到的背景噪声。这种DSP算法在阻止连续稳定噪声时效果很好。然而,它无法应对短暂而快速的噪音,如婴儿哭声和警笛声。
在2Hz时,我们使用深度运行代替传统噪声消除所产生的噪声。这是如何使用深度运行构建噪声消除系统。它提供两种类型的语音数据,噪音和清晰的语音,并产生混合语音。然后,将干净的语音数据和人工噪声数据输入到DNN。
然后,从语音数据中去除输入噪声,以训练输出的干净语音数据。通过创建可以提取干净语音数据的掩码,我们将创建一个利用深度运行的噪声消除系统。 2Hz项目将允许我们开发自己的DNN架构并创建可以应对各种噪声的掩模。
在语音呼叫中使用噪声消除时的问题之一是语音延迟。一个人可以在实时对话中容忍最多0.2秒的延迟,但是当发生这种情况时,无法进行顺畅的对话。线路,计算机和编码等三个因素会影响呼叫延迟,但通常线路情况是最明显影响延迟时间的情况。但是,使用DNN进行噪声消除不能否认延迟实际呼叫的可能性。
因此,要支持高质量的噪音消除呼叫,您需要提高计算机的性能来处理它们。然而,在诸如用于呼叫的智能电话之类的设备上包括用于噪声消除的高端计算是不现实的。出于这个原因,NVIDIA已经提出了混淆噪声消除工具的想法。噪声消除系统是基于软件的,因此它不必在本地设备本身上。
如果您是一家大型VoIP提供商,则必须同时处理批量呼叫。据说媒体服务器通常同时使用G.711语音代码处理3,000个呼叫。如果将噪声消除集成到VoIP语音呼叫系统中,则服务器端处理可能会延迟并对服务质量产生不利影响。 2Hz项目表示,当它试图使用CPU时,它无法获得具有成本效益的结果。出于这个原因,NVIDIA GPU GTX1080 Ti用于测试VoIP处理,包括噪声消除,从而在没有服务器优化的情况下同时处理1,000个呼叫,并且优化启用了3,000个同时呼叫。
语音传输或编码等基本处理由CPU完成,GPU进行噪声消除批处理,不影响现有的VoIP处理,尽可能抑制噪声。 GPU专门用于3D图形处理的大规模并行处理。 NVIDIA已经在批量处理中看到了GPU,例如深度运行,这可以通过过去几年的快节奏背景来证明。 Nvidia称GPU非常适合使用深度运行批量处理噪声消除。在这方面,这2Hz也是GPU利用市场扩展的研发方面,但很明显,噪声消除等深度运行等AI相关技术的引入相当引人注目。欲了解更多信息,请点击这里。