Picovoice Cobra 语音活动检测 (VAD) 引擎最近公开发布了,它可以支持树莓派、BeagleBone、NVIDIA Jetson Nano、Linux 64 位、macOS 64 位、Windows 64 位、Android、iOS 和支持WebAssembly的各类网络浏览器。该引擎也可以支持其他基于 Cortex-M 和 Cortex-A 的 SoC,不过仅限于企业客户。
Picovoice 还为树莓派提供了自定义唤醒词的检测,它可以简单快速地进行基于Web的训练、也可进行离线语音识别,之后甚至还会将他们的语音引擎移植到 Arduino上。Cobra 语音活动检测其实是语音活动检测的一新版本,与其他语音活动检测一样,主要目的都是为了检测音频流中是否存在人声。
Picovoice Cobra 的资料可以在 Github上找到,但请注意,它不是一个开源解决方案,而是为各种目标提供了libpv_cobra.so的动态库,该动态库提供带有C、Python、Rust 和 WebAssembly 的头文件和演示,以及适用于 iOS 和 Android 的演示应用程序。
最简单快捷的试用方式是通过公告中的嵌入示例进行演示。只需单击麦克风,然后发出一些声音,看看它的反应如何。
相关视频连接,点击此处可查看。
演示时我们会发现,即使是在嘈杂的环境中,非可听语音的噪音应该都被过滤掉了。当然这个过滤是要在一定限度内的。
该公司还发布了语音活动基准测试,用来与通过py-webrtcvad Python程序运行的Google WebRTC语音活动检测进行比较。下图就显示了信噪比在 0dB 的情况下,WebRTC 和 Cobra 引擎的接收器操作特性(ROC)曲线。该图片由 Picovoice 提供。
这个图表其实有点让人困惑,但我们需要知道的是结论就是:曲线下方的区域越大越好。
据说Picovoice 的 Cobra 语音活动检测引擎效率也很高,在树莓派Zero的实时率(Real-time factor常用于度量自动语音识别系统解码速度的值)是0.05,在更强大的英特尔酷睿 i7-1185G7 Tiger Lake 笔记本电脑上是0.0006。
文章翻译者:Jacob,嵌入式系统测试工程师、RAK高级工程师,物联网行业多年工作经验,熟悉嵌入式开发、测试各个环节,对不同产品有自己专业的分析与评估。