随着“人(人类社会)—机(信息空间)—物(物理世界)”三元的深度融合,数据规模呈爆炸式增长,且数据表现形式多样(包括文本、图像、视频、音频等)、异构多源、动态演变、真伪混杂。大数据时代,信息在网络空间发布、传播的渠道更加丰富多样,导致网络空间中的很多信息在未经过严格保密审查、未进行泄密隐患风险评估,或者未意识到信息情报价值的情况下随意发布。网络空间中非实名制场所和匿名场所的存在使得信息的源头追溯非常困难,使得敏感信息和高价值信息被公开的同时不承担追责的风险。另外,很多泄密信息和泄密事件的知悉者和目击者并不知道所看到的内容是涉密的,可能随手拍摄并记录下来传到网络空间。
大数据时代模糊了涉密数据和非涉密数据的绝对界限,碎片化数据、模糊化数据等传统意义上被认为安全的数据,在大数据时代也有可能引发泄密事件。将海量的碎片化、模糊化数据汇聚到一起,即使这些数据在公开之前经过了精心的脱密处理,通过深入的大数据关联分析,也可以洞察到隐藏在大数据表象背后的重要情报。
我国最著名的“照片泄密案”就是通过对公开数据关联分析发现情报的早期案例。日本情报人员根据《中国画报》和《人民中国》等刊登的王进喜照片和油田建设报道,准确地分析出大庆油田的位置、油田规模以及生产能力等关键信息。有了如此多的情报,日本人迅速设计出了适合大庆油田开采使用的设备。因此,当我国政府向世界各国征集大庆油田开采设备的设计方案时,日本人一举中标。一旦这些情报被用于打击摧毁的军事战略意图,后果难以想象。
2007年3月,美国海军部情报局发布了《中国海军2007》内部手册,其内容主要来自China’s Maritime Strategy,The Great Wall at Sea: China’s Navy Enters the Twenty-First Century,《中国国防白皮书》《中国海军百科全书》《海军大辞典》等国内外出版的公开资料。该手册共144页,分为16个章节。与传统的美国海军作战手册相比,手册中并没有各种舰船的清单和图解,但却详细介绍了中国海军的组织体制、领导层、政治工作制度、海军军事学术,以及海军的人力系统、部队训练、对外交往、武器装备等内容。
Bellingcat团队对2014年马航MH17空难事件的情报分析也是一个非常典型的案例。空难事件发生后,Bellingcat团队根据飞机失事地区的Twitter推文、Instagram照片、YouTube视频、Google地图等公开数据,快速分析出飞机是被俄制“山毛榉”导弹击落,以及导弹发射器的准确运输路线和时间,且空难事故后发射器最终进入俄罗斯境内,达到了与情报部门比肩的信息搜集和证实速度。2017年1月24日“东风—41”弹道导弹运输车出现在黑龙江街头的照片在互联网上引起广泛热议,一旦相关的报道、照片、视频、地图等公开信息被人聚合在一起进行类似马航MH17空难事件的情报分析,一些涉密信息和重要情报将不可避免地被泄露。
以美国为代表的信息优势国家意识到公开数据中蕴藏的情报价值和泄密隐患,非常重视通过大数据分析进行情报挖掘与泄密监测,力图实现“在任何国家、从任何语言”获取开源情报的能力,以支撑和强化美国在全球的霸主地位。目前,美国已建立了比较完善的开源情报工作体系。2005年美国国家情报主任办公室成立了开放源中心(Open Source Center,OSC),2006年又立法启动了国家开放源事业计划(National Open Source Enterprise,NOSE),专注公开信息的搜集、共享和分析,规定任何情报工作必须包含开源成分。美国广泛开展针对特定人群的情报收集任务,并将社交媒体、学术数据库等作为重要信息来源。
例如,2009年美国忧思科学家联盟(The Union of Concerned Scientists)发布的Anti-Satellite (ASAT) Technology in Chinese Open-Source Publications报告认为,虽然中国刻意减少反卫星导弹研发的透明度,但同时会在学术资源数据库中发表一些相关的技术和非技术报告,这给美国对中国ASAT技术的情报分析提供了丰富的信息来源。该报告分析了1971年至2007年的1486篇ASAT武器和技术相关的公开学术文献,这些文献来自328个科研机构的957名研究人员,发表在292种不同的中国期刊上。报告认为一些权威专家发表的文献中包含了一些非常具体有用的信息。此外,美国又非常重视对内部特定人群发布消息的规范和监测。2011年出版的《美国军队社交网络官方指导手册》针对美国军人浏览互联网,尤其是使用社交网络时对地理标注、隐私设置、视频发布等具体内容均有详尽的使用规范。
美国启动了包括棱镜计划、上游计划在内的一系列项目,构建了具有YB级(字节)设计存储能力的大数据存储中心,以Accumulo为核心的大数据存储和处理系统,形成了完整的情报收集与分析框架和能力。美国通过直接读取微软、谷歌、苹果等网络巨头的数据库和监控骨干网网络流量,可以接触到互联网用户的电子邮件、聊天日志、搜索记录、网络社交等数据。这说明特定群体尤其是涉密人员的互联网言论和行为完全能够被汇聚在一起,通过碎片拼接似的关联分析即可以挖掘出其中隐藏的涉密信息。
可以看出,大数据时代公开数据中可能存在着极大的泄密隐患,已有的保密监管手段在应对这一新型的失泄密风险时面临新的挑战,因此亟须采取一系列措施来降低泄密风险和减少不必要的损失。
(原载于《保密工作》2018年第4期)