【摘 要】 声音作为信息存在、传递和表达的第一载体,存在场合多,承载信息丰富。声掩蔽技术作为一种主动声干扰防护技术,在保护声音私密性、防止声音泄密中具有广泛的应用。本文从声掩蔽基本原理、掩蔽效应分类、掩蔽信号分类和声掩蔽系统优化设计等方面介绍了声掩蔽技术。
【关键词】 声掩蔽 主动声干扰 声泄漏防护
1 引言
信息是一个国家或企业生存发展的关键因素,通常以声音、光、电磁等信号形式存在、传递和表达。声音作为信息存在、传递和表达的第一载体,是社会交际、思想交流的工具,存在场合多,承载信息丰富。因此,如何对敏感信息进行有效地安全防护,防止以声音为信息载体的失泄密行为成为一个急需解决的问题。
声掩蔽技术作为一种主动声干扰防护技术,是降低语音可懂度(语音信息被正确理解的程度)、保护语音私密性的必要措施之一,它主要通过发射人耳可听频段内的干扰信号,利用声掩蔽效应来掩蔽目标语音信号,导致目标语音不被听到或可懂度降低。本文将从声掩蔽基本原理、掩蔽效应分类、掩蔽信号分类和声掩蔽系统优化设计等方面对其进行介绍。
2 声掩蔽基本原理
声掩蔽技术是保护声音私密性、防止声音泄密的重要措施。如图1所示,声掩蔽通过将掩蔽声信号填充目标区域来提高目标区域的环境背景声音,利用声掩蔽效应来实现掩蔽目标语音的目的。
图1 声掩蔽系统工作示意图
声掩蔽效应是一种与人耳听觉有关的声学效应,人耳能在寂静的环境中分辨出轻微的声音,但在嘈杂的环境中,轻微的声音会被嘈杂声所淹没,这种由于嘈杂声音的存在使得轻微声音听阈提高的现象称为声掩蔽效应。如图2所示,图中黑色实线为正常情况下人耳的听力阈值,低于此阈值的声音人耳是听不到的;图中蓝色被掩蔽频率样本(需要被掩蔽的目标语音信号),由于其声压级高于人耳听力阈值,该信号对于人耳是可听的。但当声掩蔽系统发射图中红线所示的掩蔽声时,掩蔽声的存在将人耳的听力阈值由黑色实线提高到了黑色虚线,此时,蓝线代表的被掩蔽信号的声压级低于新的人耳听力阈值,变得不再能被人耳听到。掩蔽信号的存在使得人耳听力阈值的提高量即黑色虚线与黑色实线的差值被称为声掩蔽量。与人耳类似,窃听设备获得的目标语音信号质量也会因掩蔽声的存在而受到干扰。
图2 声掩蔽原理图
从图2中还可以看出,掩蔽信号不仅会提高掩蔽声信号所在频段的人耳听力阈值,还会提高其相邻频段的听力阈值,但其掩蔽能力(声掩蔽量)会随着目标信号频率与掩蔽信号频率差值的增大而降低。人类语音信号的能量主要集中在100Hz~8kHz之间,因此,为了获得最优的掩蔽能力,一般声掩蔽系统发射的掩蔽干扰声频率范围也在100Hz~8kHz之间。
声掩蔽效应除上述特征外还具有以下特征:低音容易掩蔽高音,高音较难掩蔽低音;提高掩蔽声的声压级时,声掩蔽量会提高,而且被掩蔽的频率范围也会扩展。
3 声掩蔽效应分类
考虑被掩蔽信号和掩蔽信号的时序关系,掩蔽效应可以分为同时性掩蔽和序列性掩蔽。当掩蔽信号和被掩蔽信号同时出现时,称为同时性掩蔽;当掩蔽信号领先于或者滞后于被掩蔽信号出现时,即2种声音信号非同时出现,称为序列性掩蔽。声音信号大多时候是非稳态的瞬时信号,声压级随着时间变化很快,即强音后面跟着弱音,弱音后面又可能跟着强音。由于听觉具有记忆功能,比较强的声音往往会掩蔽随后到来的较弱音。另外,听觉对声音的感觉需要一个建立过程,会有一定的延迟,而听觉对于较强声音感觉的建立要快于对较弱声音感觉的建立,所以存在先到达的较弱声音会被后到达的较强声音掩蔽的现象。根据掩蔽信号与被掩蔽声音信号出现的先后关系,序列性掩蔽还可以分为前向掩蔽和后向掩蔽。一般来说,同时掩蔽性效应最强,掩蔽量最大;前向掩蔽效应要大于后向掩蔽效应,前向掩蔽发生作用的时间远大于后向掩蔽的时间。
根据掩蔽声在听觉系统的作用位置,声掩蔽还可以分为能量掩蔽和信息掩蔽。能量掩蔽主要是指掩蔽信号对目标语音在听觉外周的干扰,而信息掩蔽则主要是指掩蔽信号对目标语音在听觉中枢的干扰。传统的噪声干扰对目标语音的掩蔽是能量掩蔽,其掩蔽性能直接与掩蔽信号和被掩蔽信号之间的谱重叠程度相关。信息掩蔽是指由于掩蔽声音和被掩蔽声音具有相似性而竞争人脑语音知觉加工资源,或者是由掩蔽声音的可懂度在认知层次上占用用于加工被掩蔽声音的资源。声掩蔽效应分类如表1所示。
表1 声掩蔽效应分类
4 掩蔽信号分类
声掩蔽技术的核心理念就是以声抑声,它通过向空间内增加一种均衡舒适的掩蔽信号,在保持说话人感官舒适性的前提下,降低潜在泄密位置的语音可懂度,提高说话人语音的隐私性和保密性。根据掩蔽声源信号种类,声掩蔽可以分为背景音乐掩蔽、背景噪声掩蔽和相干目标语音掩蔽3种。
背景音乐掩蔽就是将音乐作为掩蔽声源,部署在声音泄漏、窃听及传输途径中。但这种掩蔽会造成新的声音干扰,因为音乐是有意义的声音,如果放置在正常语音声源附近作为掩蔽声,十分容易引起说话人的关注,对说话人之间正常的工作交流造成影响。
背景噪声掩蔽就是利用白噪声、粉红噪声、模拟空调/新风系统噪声和其他类型的噪声,以及它们互相混合的噪声信号作为掩蔽声音,不同的背景噪声具有不同的掩蔽能力。背景噪声掩蔽的问题在于其掩蔽语音方面的效率不高,要求在声音可能泄漏或窃听的位置,掩蔽信号的声压级必须高于目标语音的声压级才能达到掩蔽的效果,但是过高的噪声能量会对说话人造成影响。
相干目标语音法就是将言语信号,甚至是与目标语音相干的言语信号作为掩蔽声音,它主要是一种信息掩蔽,其掩蔽效果及掩蔽效率跟掩蔽信号与目标语音的相似性有关。研究表明,掩蔽信号和目标语音的高相似性可以提高掩蔽效果,造成更多的信息掩蔽,被测试人很难区分来自同一性别的语音信号,但比较容易区分不同性别的语音信号,而且将目标说话人的其他语音信号(如将目标说话人的语音信号进行时域反转形成的反转信号或逐帧处理形成的语谱言语、调制语谱言语及音段反转言语)作为掩蔽信号,能够有效地掩蔽目标语音,其掩蔽作用优于其他说话人的语音信号。总之,基于相干目标语音的掩蔽信号对于降低语音可懂度和保护语音私密性方面具有广泛的应用前景,值得进一步深入研究。
图3 声掩蔽系统未工作时窃听设备记录的目标
语音信号波形(上图)及语谱图(下图)
图4 声掩蔽系统发射的白噪声信号波形(上图)
及语谱图(下图)
图5 声掩蔽系统干扰后窃听设备记录的目标语音
信号波形(上图)及语谱图(下图)
图3—图5给出了背景噪声掩蔽中声掩蔽系统未工作和工作时窃听设备记录信号的波形及语谱图。其中,图3为声掩蔽系统未工作时,窃听设备记录的目标语音信号,可以看出,语音信号主要能量集中在8kHz以下,且语音信号存在明显的基音周期及共振峰。图4为声掩蔽系统发射的干扰白噪声信号波形及语谱图。图5为声掩蔽系统工作时,窃听设备记录的目标语音信号波形及语谱图。对比图5和图3可以看出,声掩蔽系统发射的白噪声提高了环境的背景噪声级,降低了窃听设备记录信号的信噪比,图3中一些语音的基音频率及共振峰已被掩蔽噪声掩盖,掩蔽声的存在一定程度上降低了目标语音信号的可懂度。但是,单纯的白噪声掩蔽信号的掩蔽效果较差,图5中蓝色虚框内的一些语音基音频率和共振峰仍存在,通过这些基音频率和共振峰仍可以恢复部分目标语音信息。为了完全掩蔽目标语音信号,需要进一步增大掩蔽声的发射功率,但是较强的掩蔽声干扰会严重降低说话人的舒适性。因此,掩蔽信号需要兼顾舒适性及掩蔽性,在同等掩蔽声压级的情况下,应合理选择和设计声掩蔽信号以降低目标语音信号的可懂度,提高目标语音的保密性,达到较高的声掩蔽效率与性能。
5 声掩蔽系统的优化设计
基于声掩蔽原理和掩蔽信号分类,目前,声掩蔽的研究主要集中在两方面,一方面是掩蔽声源或掩蔽信号的选择和产生上,另一方面是掩蔽系统的组合优化上。在可能存在声音泄漏或窃听的位置、途径上选择合适的掩蔽声源,并对掩蔽声源的布局进行优化设计,才能达到最佳的掩蔽效果。
鉴于当前大多数窃听设备具有数据存储功能,窃密者可以对窃听数据进行深入分析处理,利用掩蔽信号和目标语音信号的差异性,通过信号处理手段将目标语音信号从包含掩蔽声信号的窃听数据中分离或者还原出来;甚至可以在掩蔽声系统发声器旁边专门放置一个用于窃取掩蔽声信号的窃听设备,将窃取的掩蔽声信号作为参考信号,通过自适应抵消等信号处理手段对窃取信号中的掩蔽声干扰信号进行自适应抵消处理,进而还原出目标语音。为了保证掩蔽声系统的掩蔽质量,掩蔽声源发射的掩蔽声信号需要具有抗消除性,掩蔽声不能由单一简单的信号构成,需要由音乐声、各种噪声或人类言语声以及它们相互组合的干扰信号组成。
此外,声掩蔽系统往往包括一个或多个声源,因此需要对声源的布放位置进行提前设计,使得掩蔽声场分布均匀,即掩蔽区域内的掩蔽信号声压级尽量一致,而不会出现同一区域内掩蔽信号强度差距较大的情况。而且,声掩蔽控制系统还能够根据说话人的位置和需要掩蔽的区域,实时计算并动态调整各个声源的掩蔽声信号发射幅度和相位,通过相位控制和幅度控制技术,在特定方位或区域产生干扰,提高作用距离,以达到最优的掩蔽效果。
6 结语
声掩蔽技术主要利用声掩蔽效应,通过发射人耳可听频段的掩蔽声来实现掩蔽目标语音的目的。本文介绍了声掩蔽基本原理、掩蔽效应分类、掩蔽信号分类和声掩蔽系统优化设计。提高掩蔽声源级能达到强的掩蔽效果,但由于掩蔽信号对人耳可听,强掩蔽声也会降低说话人的舒适度,进而影响正常的语音交流。实际应用中,在说话人可承受的掩蔽声源级下,进一步设计更高掩蔽性能、对人耳更舒适的掩蔽信号,并对声掩蔽系统各声压进行优化组合控制是提高声掩蔽效果的主要途径。同时,声音泄密途径多、窃听设备安装位置未知,依靠单一的技术手段无法完全实现对声音信息的安全防护,因此需要采用多种声泄漏防护技术,充分利用各种防护技术的优势,避开其劣势,才能达到最好的综合防护效果。
(原载于《保密科学技术》杂志2023年1月刊)