Picovoice Cobra语音活动检测引擎,优于Google WebRTC语音活动检测

原文链接:Picovoice Cobra Voice Activity Detection Engine shown to outperform Google WebRTC VAD 由Jean-Luc Aufranc撰写。
本文共计628字,预计阅读2分钟

Picovoice Cobra 语音活动检测 (VAD) 引擎最近公开发布了,它可以支持树莓派、BeagleBone、NVIDIA Jetson Nano、Linux 64 位、macOS 64 位、Windows 64 位、Android、iOS 和支持WebAssembly的各类网络浏览器。该引擎也可以支持其他基于 Cortex-M 和 Cortex-A 的 SoC,不过仅限于企业客户。

Picovoice 还树莓派提供了自定义唤醒词的检测,它可以简单快速地进行基于Web的训练、也可进行离线语音识别,之后甚至还会将他们的语音引擎移植到 Arduino。Cobra 语音活动检测其实是语音活动检测的一新版本,与其他语音活动检测一样,主要目的都是为了检测音频流中是否存在人声。

PicoVoice Cobra语音活动检测
PicoVoice Cobra语音活动检测

Picovoice Cobra 的资料可以在 Github上找到,但请注意,它不是一个开源解决方案,而是为各种目标提供了libpv_cobra.so的动态库,该动态库提供带有C、Python、Rust 和 WebAssembly 的头文件和演示,以及适用于 iOS 和 Android 的演示应用程序。

最简单快捷的试用方式是通过公告中的嵌入示例进行演示。只需单击麦克风,然后发出一些声音,看看它的反应如何。

相关视频连接,点击此处可查看

演示时我们会发现,即使是在嘈杂的环境中,非可听语音的噪音应该都被过滤掉了。当然这个过滤是要在一定限度内的。

该公司还发布了语音活动基准测试,用来与通过py-webrtcvad Python程序运行的Google WebRTC语音活动检测进行比较。下图就显示了信噪比在 0dB 的情况下,WebRTC 和 Cobra 引擎的接收器操作特性(ROC)曲线。该图片由 Picovoice 提供。

Picovoice Cobra对比Google WebRTC
Picovoice Cobra对比Google WebRTC

这个图表其实有点让人困惑,但我们需要知道的是结论就是:曲线下方的区域越大越好。

据说Picovoice 的 Cobra 语音活动检测引擎效率也很高,在树莓派Zero的实时率(Real-time factor常用于度量自动语音识别系统解码速度的值)是0.05,在更强大的英特尔酷睿 i7-1185G7 Tiger Lake 笔记本电脑上是0.0006。

分享这篇文章
订阅评论
提醒
0 评论
最旧
最新 最多投票
内联反馈
查看所有评论