也许你已经习以为常,早上出门上班,手机告诉你到单位需要多长时间;也许你已经司空见惯,新闻客户端的头条都是你关心的话题;也许你已经不足为奇,各家电商向你推介准备入手消费品的打折信息;也许你已经见怪不怪,通讯软件将多年杳无音信的同桌推荐给你。可是!你并没有告诉手机,我的单位在哪,我想看哪些新闻,我需要哪些消费品,谁曾经是那个同桌的她。这就是大数据!短短几年时间里,我们自觉或不自觉、自愿或不自愿地产生着大数据,同时也被大数据所环绕、笼罩和支配。大数据颠覆了我们的生活方式,也对国家安全产生了巨大影响,国家秘密更是首当其冲。大数据模糊了密与非密的界限,打破了传统的定密习惯,改变了情报搜集的方式,也给反窃密防泄密提出更大的挑战。
大数据时代对保密范围和方式的挑战
随着传感网和物联网的快速发展,人、机、物三元世界高度融合引发数据规模几何式增长和数据模式极度多样化,网络化的大数据时代已悄然来到我们身边。大数据时代对于保密工作的直接挑战是,一些重要信息可保性急剧下降,关系国家安全的关键性数据亟须纳入保密管控。
1.原属于政府控制的一些重要信息可保性急剧下降
日本3?11地震期间,政府先向公众宣称放射程度没有那么危险,核辐射处于控制之中;随后,核反应堆墙体被冲垮,在冒着滚滚浓烟的画面下,政府欲盖弥彰仍称情况在不断好转。大数据时代,这 种行为只能称之为作死,日本各地成千上万人自发上传盖革(Geiger)计数器(用于测量放射性污染程度)数据,通过Pachube平台对外发布,政府和东京电力公司的“人设”瞬间崩塌。在一个可以有效感知并能分享信息的世界中,将数据算法运用到大数据上,就不难对部分政府希望保密的事项进行推断和预测,这显然是对传统政府垄断重要信息的巨大挑战。舍恩伯格等在《大数据时代》中举例,美国劳工统计局每个月统计、公布消费价格指数(CPI),花费巨大且结果滞后。两位麻省理工学院经济学家通过软件在互联网上每天收集50万种商品价格信息,通过大数据分析,就能比官方提前两个月发现通货紧缩的趋势。
对数据进行有选择性地屏蔽是政府控制信息的传统方法,大数据时代此法可能不再奏效。以“谷歌街景”作为类比来看,谷歌公司的图像采集车在很多国家采集了道路和房屋的图像以及大量备受争议的数据,德国民众强烈抗议这一行为,认为这些图片会帮助黑帮窃贼选择有利可图的目标。在巨大压力下,谷歌公司将一些房屋或花园的影像模糊化,但这种模糊化却起到了此地无银三百两的反作用。与之类似,如果政府试图屏蔽某些大数据库里的数据,则有可能引起相反的效果。
大数据格局下,要求政府重新审视需要保守的国家秘密范围,对于已不具有可保性的,及时从范围中剥离出去;对一些通过大数据分析有可能被准确预测,且确实关系国家安全的信息,要研究如何切断数据获取、分析和预测的途径,而不仅仅是将国家秘密信息放在保险柜中。
2.一些关系国家安全的基础数据逐步显示出保密的重要性
大数据背景下,过去没有引起足够重视的一些数据,对国家安全的重大影响逐步显现。比如,过去我们对人种基因的安全重视不够,随着医疗大数据、基因大数据的快速发展,已直接关系国家存亡甚至种族延续;对垄断性电商销售数据的长时间汇总、分析,就有可能直接掌握各地区经济发展态势、居民购买力等重要信息。
此外,大数据将对涉密人员管理产生巨大影响。我们的通话、电子邮件、即时通讯信息等被加上时间印戳备份在通讯公司、软件公司的服务器中;我们在电商处买东西的偏好和支付能力被详细统计分析;我们的即时行踪被手机厂商完全掌握;甚至我们的音容笑貌都被各大街角和商场的摄像头实时捕捉并存储在网络上。可以说,每个人在大数据面前都是一丝不挂,当然也包括涉密人员,这就有可能对国家安全产生间接威胁。帕特里克?塔克尔在《赤裸裸的未来》中举例,2010年,美国罗切斯特大学研究员亚当?萨迪雷克组织了一项研究,如果锁定的目标关掉GPS,且不再发布含有地理定位的信息,能否对其准确定位?他们通过搜集目标朋友或亲属公开的推特信息,利用其中带有的定位标签,大数据分析预测目标的行踪准确率高达47%。2011年,萨迪雷克和研究员约翰?克鲁姆又组织了一项研究,他们雇佣了数百个受试者,让其随身携带追踪器。经对受试者及相关人员超过6年的监测,可以通过大数据分析,在80个礼拜或更久前预测受试者所在的位置,准确率高达80%。
可以想见,未来的保密已不仅仅是信息的保密,构成信息的基础数据的保密将会同等重要。这要求我们不仅仅考虑信息的保密,还要考虑在大数据分析条件下,哪些数据可能推测出相关信息。必要时,要通盘考虑对数据的保密管理要求和技术防范措施。
3.一些大数据与国家安全的关联程度正在不断增强
总体国家安全观提出的国家安全体系,使得国家安全的外延得到进一步延伸。国家安全的概念不仅包括传统上的政治、军事、领土等国家生存安全的领域,还逐步扩大到包括文化、社会、科技等多个国家发展安全的领域;不仅包括传统安全领域,还包括非传统安全领域。在涉及国家发展安全方面,如经济安全、生态安全等,一定程度上依托于大数据安全;在非传统安全领域,如粮食安全、文化和意识形态安全、网络与信息安全等,都涉及或者包含大量的相关行业、部门、区域的大数据信息,而掌握这些信息,并由此进行梳理、整合、分析,可以得到更有价值涉及国家安全的重要信息或者重要结论、判断。比如,我们对粮食安全的判断,可以基于耕地数据、气候数据、农业技术数据以及农产品市场数据、主要产粮国家经济政治数据等予以推断;我们对金融安全的判断,可以基于信息化背景下金融系统大数据的分析和研判。因此,大数据在一定程度上直接决定了很多国家安全领域重要信息的安全与否。
当前,世界主要国家在数据主权上的博弈日趋激烈,发达国家相继推出“数据治国”战略并制定发展规划以赢得先机。对此,我们必须未雨绸缪、防患未然,在总体国家安全观的指引下,认真分析对国家安全可能造成重要影响的大数据安全,并有针对性地采取保护措施。
大数据时代的泄密风险
随着时代的发展,保密管理经历了针对纸质文件资料的“三铁一器时代”、针对电子文件资料的“涉密信息系统管控时代”。这些方式之所以有效,在于找到了纸质和电子文件资料泄露的风险点。大数据时代,泄密风险发生了质的变化,需要有针对性地研究。
1.大数据时代国家重要信息的拥有者和发布者不断分散
过去,国家重要信息的拥有者和发布者主要是国家。大数据时代,信息的跨国流动已成为现实,政府不再是信息的唯一拥有者和权威发布者。全世界单独的个体被调动起来形成巨大的合力,足以打破政府对信息的控制。比如,在马航MH370失联事件发生后,美国数字地球公司通过Tomnod软件应用平台,提供其所汇集的失联区域数据和高分辨率卫星图像,邀请来自世界各地的科技志愿者搜索失联航班的任何迹象。该平台共动员了全球800万志愿者寻找失联航班,提供各类信息。不难预见,这种动员能力如果用于针对获取某个特定国家的国家秘密和重要情报,后果是不可想象的。据报道,美国数字地球公司最赚钱的业务,就是为美国情报界提供相关服务。该公司曾经在上述软件应用平台推出了一个名为“搜索挑战”的项目,要求志愿者利用其发布的高分辨率卫星图像,帮助搜索上千平方公里内的军事飞行器和车辆。值得玩味的是,这个搜索项目的目的并没有公布。
2.大数据时代国家重要信息的存在方式发生巨大变化
从大数据发展态势来看,即将到来的世界是人、机、物融合的三元世界,机中有人、人中有机,物中有机、机中有物的世界已逐步走近我们。随着人、机、物的相互融合,对不同领域的大数据进行跨领域、集成式研究,就有可能推测和判断国家重要信息。比如,针对某涉密科研院所,通过对研究人员在互联网及数据库中的搜索记录进行分析,可能了解研究课题的主要方面甚至遇到的瓶颈问题;对该院所最近一段时间购买仪器设备记录进行分析,可能推断正在进行的课题研究方向甚至进展程度;对该院所研究人员、管理人员的电子邮件进行分析,可能发现有关项目的协作配套等信息;从该院所公开的外部人员来访报道进行分析,可能推测出项目委托方情况;如果可以幸运地侵入该院所实验设备构成的物联网中,获得产生的实验数据,据此判断项目进展情况就显得更加轻而易举了。也许单一来源的信息可能不会暴露国家秘密或重要情报,但如果像上述分析一样,可以将某个事件、某个人或者某群体的很多行为,从不同的独立角度聚集在一起时,信息就有可能被泄露,因为有关这个事件、这个人或者这个群体的数据已经足够多。传统以信息为主要形态的国家秘密或重要情报,在大数据时代发生质的改变。它们不仅简单地以文件、图片、资料的形式存在,还可以通过直接或者间接有关的大数据,经过细致的分析、推理和判断,描绘出其细致轮廓,甚至分毫不差。
此外,部分大数据自身就是重要的战略资源。比如,媒体频繁披露的境外机构、人员在我境内实施非法测绘活动,其目的就是获取我国家基础地理信息数据;再如,媒体曾报道美籍华人薛峰实施非法窃密活动的主要目标就是我油气资源数据。其他譬如气象数据、基因数据等,也是境外非法获取的重点目标。
3.大数据时代获取国家秘密和重要情报的渠道不断增多
近年来,境外非法获取国家秘密和重要情报的方式日趋多样,大数据分析重要性显著上升。《参考消息》2014年11月24日报道,据美国情报系统的研究,所有情报中有90%来自公开渠道,只有10%是通过秘密管道获取。显然,大数据分析功不可没。
观察各种复杂系统得到的大数据,直接呈现出来的往往是一个个孤立的数据和分散的链接,但这些反映相互关系的数据和链接整合起来就是一个网络。大数据往往以数据和链接背后复杂的关系网络予以存在。大数据分析给窃取国家秘密和重要情报提供了重要依循,通过对数据背后的网络进行查找、分析和挖掘,基于相互关系分析基础上进行预测即可获得或者推断有关信息。此外,对于已经获得的国家秘密和重要情报,还可以通过大数据分析的方式,印证信息的准确与否。比如,对于一些重大涉密会议、活动安排,可以通过组织人员、已知参加人员的即时通讯记录、电子邮件记录数据,有关机场、火车站的调度安排、警卫情况数据,宾客下榻酒店客房、餐饮准备数据等大概分析出会议、活动参加人员、行程、议题等内容,而不必一定拿到会议、活动安排方案。再比如,对于一些涉密的军队调动情况,通过相关地区的摄像头监控网络数据、有关机场或火车站的调度数据、有关军队饮食供应站情况数据,如果再增加一些沿途网民上传的照片、消息等数据,将会准确掌握军队调度的路线、规模甚至目的等重要信息。
4.大数据分析获取国家秘密和重要情报成为常态
大数据分析不同于传统的逻辑推理研究,而是通过将海量碎片化的数据汇聚到一起,积少成多,再进行统计性的搜索、比较、聚类、分类等分析归纳,在碎片化的数据之间建立某种整体联系,就有可能挖掘出隐藏在大数据背后的重要信息。因此,大数据分析具备了从大量不敏感信息中发现国家秘密和重要情报的能力,日益成为境外情报机关搜集信息不可或缺的重要渠道。
美国国家安全局长期对全球通信系统和互联网进行大数据采集、挖掘和分析,从中搜集他国国家秘密和重要情报信息。斯诺登曝光的美国国家安全局实施的棱镜计划(PRISM),显示出美国情报机关较早便采用大数据分析方式获取情报,甚至可以说美国情报机关具有疯狂获取大数据的特殊癖好。棱镜计划监视范围很广,参与的公司包括微软、雅虎、Google、Facebook、Paltalk、YouTube、Skype、美国在线、苹果公司等;采集的数据范围很广,包括日志数据、社交网络数据、过程行为数据、传感网络数据、智能终端数据等,可以监控包括电子邮件、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料等信息。
台湾地区情报机关也在强化运用大数据分析方式获取大陆情报。2015年,媒体曝光了台“国安局”建构了运用大数据概念的“舆情监控系统”对大陆搜集情报,可同时搜集超过200个网站、1000个网页,并对海量网络数据进行自动分析、存取。据《环球时报》报道,早在2007年,台湾地区情报机关已对我政府和军队以及国防科研机构、军工企业网络实施大规模的网络攻击行动,受攻击单位遍及我绝大部分省、自治区、直辖市,还包括我十几个驻外机构。台湾地区网络间谍李芳荣案中被控制的电脑和网络达数百个,窃密内容涉及政治、军事、外交、经济、医疗卫生等多个领域。不难看出,此类网络攻击的动机就是窃取目标用户的海量数据,作为大数据分析窃密的基础。
大数据时代的风险防范
篮球比分总书记强调,要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。要加强政策、监管、法律的统筹协调,加快法规制度建设。大数据时代的到来,必将推动保密管理又一次产生新的革命性变革,直接对保密的方式、要求和标准产生质的影响。对大数据时代的泄密风险防范,我们必须进行深入研究,切实采取有效措施以应对这一重大变革。
1.从过去的信息保密为主转变为数据、信息保密并重
数据是信息的载体,信息是数据的内涵。数据的价值不只限于特定的用途,它既蕴含我们所需要的信息,也包罗我们尚未发现的信息。判断数据的价值需要考虑到未来它可能被使用的各种潜在方式,而非仅仅考虑它目前的用途。大数据时代告诫我们,不能把眼光仅仅局限在涉密信息的安全上,还要考量能够直接获得或者推测判断出涉密信息的基础数据的安全。要充分认识这些基础数据的基本价值和潜在价值。需要注意的是,大数据时代的一个突出特点是,非结构化数据的比例要远远高于结构化数据或半结构化数据。不论是结构化数据、半结构化数据,还是非结构化数据,这些数据都具有显性或者隐性的网络化存在,使得数据之间的复杂关系无所不在,一旦忽视其中的重要环节,就有可能导致重要情报的泄露。因此,大数据时代给我们的第一个挑战就是,对于关系国家安全和利益的数据进行准确的判断和筛选,既要注意各类结构化、半结构化数据,也需要考虑容易引起忽视的非结构化数据。
2.从过去的严防死守为主转变为预防为先、攻防结合
过去我们对国家秘密信息的保护,往往是通过切断或者减少信息传播的途径来实现的,比如知悉范围的最小化、信息设备的物理隔离等。大数据时代下,这样的方式显得力所不及。大数据分析的优势和缺陷是一致的,即通过大数据综合分析可以得到有效信息的前提是,用于分析的数据“噪声”比较少,即虚假或者无用数据相对较少。大数据分析的真正意义在于对数据进行分析之后产生的价值,因此数据的可靠性和准确性是实现价值的关键因素。关于大数据的一个普遍观点是,数据自己可以说明一切,数据自身就是事实。但是,成也萧何,败也萧何,如果对基础数据不仔细甄别,数据也会欺骗。正如由于网络刷单的存在,我们现在已经越来越难地从电商卖家的销售数量中判断该卖家的信誉和货品的质量;我们也很难通过点评网站上用户的点评,判断某家餐馆的菜品质量。因此,为了保护一些关系国家安全和利益的大数据,我们可以人为地制造“噪声”,使其无法或者很难从真假混杂的大数据中提取出有效的数据。通过伪造或者刻意制造的数据,可以引导分析者得到错误的结论,诱导分析者获取不实的信息。
3.准确、合理、有区分地判断数据的保密、共享与公开
大数据时代开启了一场寻宝游戏,不同的人对大数据的因果关系有不同的理解,不同的人也就可以在浩瀚的大数据中挖掘不同的宝矿。2015年8月,篮球比分常务会议通过《关于促进大数据发展的行动纲要》,提出要推动政府信息系统和公共数据互联共享,深化大数据在各行业创新应用。由此可见,通过大数据的共享共用,实现对各方面事业的巨大推动作用,是当前经济社会发展的一个重要着力点。恰当地控制大数据可能造成的危害和充分地利用大数据共享所产生的巨大成效,是摆在大家面前的一项重要抉择。在国家大数据战略背景下,需要我们认真地研究大数据互联共享可能造成的潜在危害,并根据实际妥善采取相应的方式,有效地控制这种危害的产生。要坚持大数据互联共享为原则,关系国家安全和利益的数据保密为例外,把必须保密的数据控制在最小的知悉范围,适当限制可能危害国家安全和利益数据的共享,密切关注公开的大数据并能在一旦发生危害国家安全情况下,采取必要的应急处置措施,这应当是我们面对大数据保密、共享与公开应有的态度。
篮球比分总书记强调,善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功。各级领导干部要加强学习,懂得大数据,用好大数据,增强利用数据推进各项工作的本领,不断提高对大数据发展规律的把握能力,使大数据在各项工作中发挥更大作用。大数据时代的到来,对保密工作而言是挑战也是机遇,需要我们站在更高更广的层面,系统研究保密的范围以及保密工作的对象、方式,实现保密工作在大数据时代的转型升级。学好大数据这门必修课,应当成为每一位保密工作者的基本功。
(原载于《保密工作》2018年第4期)