搞定大数据:AI和机器学习在数据处理与保护上的应用
作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。不幸的是,上市公司的“外行”总监和管理人员,以及政府高管,倾向于将“规模”(当它属于数据保护的时候)看做不好的东西,甚至是令人恐怖的事物。
原因部分在于,几乎没有什么实用的方法,可以向这些位置上的人解释:某组织的安全运营中心是有可能每天收到百万个“事件”,以及,同时处理和调查这些事件的固有潜在危害,以及,适度保证没有任何一起事件能够溜过安全人员的检测。
大数据分析作为商业工具是很妙的一招,因为我们可以将这些数字转换成“商业利益”。但大数据也是网络安全的需要(比如,使用网络流量、数据、传感器和其他反馈,帮助确定网络正常模式和异常现象),问题在于网络安全数据不太容易被转换成我们能轻易概念化的东西。
那么,我们产生多少大数据呢?我们又该怎样响应这些数据?有几个重要的基本问题必须得到很好的理解,否则更难的问题——我们怎样保护数据?就得不到解答了。
一、我们产生多少数据?
先从一个基本的概念开始:时至今日,数据意味着所有东西,无论是个人的,还是工作上的。我们生活中的方方面面,都已经转换成了这些“0”和“1”的组合。我们如今对数据的依赖是前所未有的,而且肯定还会越来越重,尤其是随着IoT的爆炸式发展。而我们产生的数据——无论好数据、坏数据、垃圾数据,也将持续增长(以惊人的速度),不断吞噬全球网络上的空间(意味着如果你能够控制小小一部分这些数据流,就能发动邪恶的DDoS攻击)。
那么,到底有多少数据以近光速游荡在网络中?2016年6月思科的一份白皮书揭示:全球IP流量已进入“泽字节(ZB:2^70字节)时代”。很好,但ZB是个什么鬼?(下文会有解释)
二、回到基本规律
为解答该问题,我们需要从一些基本规律开始,首先就是:人类是有认知限制的。在试图理解超级大或超级小的数字上,这种限制就特别明显了。我们可以使用计数符号来表示大数字,比如 1 ZB(泽字节)就是 1 x 10^21 字节。但是,这个计数法对你有任何意义吗?
把100万表示成 1 x 10^6 可能对你还有点意义,但那是因为我们对“100万”的实际意义有着更好的理解。可以用美元来概念化“100万”以创建一个参考点:你的年薪是 $50,000,工作20年,只存不花,那就能攒下100万美元了。看下表,可以给你的年薪来个“增幅”:
哪种表示法看起来更爽?$1 x 10^9 还是 $1,000,000,000?好吧,其实都一样的数额,但后面的一串“0”显然看起来舒服多了。而且,更重要的是,看着后一种表示法中的一串“0”,不仅可以帮助人类理解该数字,还能更好地理解这数字代表的意义。为什么呢?因为我们用单词代表数值,而这些数值必须被转换成可感知的某些东西,我们才能在日常生活和网络空间中加以使用,因为规模、符号和认知的限制,该问题变得更难了。
三、概念化ZB
我们知道十亿(10^9)是什么,但我们管10^21叫什么?1,000的7次幂?现在觉得有个称呼好点儿了么?未必!
想象一下我们可以捕捉的一瞬间,就2016年全球IP流量的一个快照吧——1泽字节。我们能把这类比成什么呢?
用下面的表格,我们用一些例子以类比的方式重写了这些数字,概念化一下我们实际处理的东西。
注:本例中用 1.28 ZB (有些数字四舍五入了),出于数学上的方便,完整写出数字时就用十进制值而非二进制了。不用过分纠结细节,至于技术宅,记得:更多的人说话方式是“非技术”的。让你的生活,以及他们的生活,更容易些吧,术语行话和烦人的细节什么的,能避免就避免。
尝试在脑海中具象化下面的数字:
*注:1 万亿米相当于1,000,000,000公里
如果地球到土星的距离对比很难概念化,不妨这么想:花8,000辈子一刻不停用脚走就走到了。如果这都还是难以想象,那就这样:128 GB 之于 1.28 ZB,相当于 20 美金的一张绿票票之于整个美国联邦债务——20万亿美元。于是,假设联邦债务以全球IP流量增长速率增加,到2020年美国总统大选之时,我们要讨论的就是46万亿的债务数字了。
四、概念化网络安全警报过程
那么,既然我们现在对数据产生和流量问题的规模有了更好的理解,我们就要考虑一下怎么管理了。
毫不意外的,被问到最大的安全事件响应挑战时,被调查的网络安全从业者中,36%的人称,“跟上安全警报的规模。”用上面20万亿美元来做类比, 可以说,安全人员的任务就是每天从550亿美元中筛选,找出其中多少是合法的,有多少被盗了,有多少是被洗的,有多少是假钞。
FBI局长詹姆斯·科米在2014年 60 Minutes 的采访中对该问题给出了一个非常有用的描述(谈及中国网络攻击时说的):
实际上,他们没那么强。我把他们比作喝醉的盗贼。他们一路踢开大门,撞倒花瓶,再顺走你家电视机。他们仅仅是多劳多得而已。他们的策略似乎是:我们就是时时刻刻无处不在。而他们无法阻挡我们。
关键句是“时时刻刻无处不在”,因为这就是现状。同一份调查中, 42%的受访者称自家公司忽略掉了相当大一部分的安全警报,因为他们完全跟不上警报的规模。 当然,被警报淹没也存在无心之失的风险:“狼来了”太多次的后遗症。
但或许更令人担忧的数字是:34%的人称,1/4到一半的警报都被无视了,20%称一半到3/4的警报被无视,11%称超过3/4的安全警报被无视!额滴娘喂,这不就是无数大门被踢开,然后放任不管么。
再回到20万亿美元的对比,也就是每天要从550亿美钞中筛选的类比中。如果我们使用上述“忽略”数字,翻译过来就是:警报告诉我们有些不对劲的事情在发生,但我们太疲于应付了,我们不想拨冗查看价值150亿的日产警报。这可真是很多很多钱啊。
很不幸,该问题由来已久。警报忽略似乎与警报本身一样常见,而且如《思科2017年度网络安全报告》中揭示的: 不到一半的合法警报切实触发了某种形式的修正,而仅不到1%的严重/关键警报被予以调查。 2014年,企业每天处理10,000个警报;2016年,政府部门每天处理50,000个警报;谁知道2017年底随着IoT爆炸式发展我们每天要处理多少警报呢。
不幸的是,尽管有良好建议,比如设置目标、获取正确的信息、巩固整合等等,我们依然疲于奔命,因为我们还是没解决“规模”问题。哦,还有,我们是不是还没提到,有时候网络安全分析师每天只能搞定10个调查?这就是AI和机器学习可以大展拳脚的地方了(也是为什么专注于网络安全问题的AI初创公司,是最好利用我们当前越来越脆弱的状况的原因了)
五、到底意味着什么?
这意味着,我们还有很多工作要做,意味着如果没有AI和机器学习帮我们解决网络安全挑战——感觉上是两码事而实际上就一码事的东西(提示:网络安全+信息安全=数据安全),我们就一条道走到黑了。只要有人能命令并控制仅仅1%的全球IP网络流量,其后果都是灾难性的。
这想法听起来挺难以置信的,但很可能就真是这样,尤其是在想到IoT设备有多不安全(你的洗碗机有口令吗?),以及向移动设备的迁移分分钟都不停脚的时候。这意味着只会有越来越多的人连接本就不安全的设备WiFi网络。
这些困难不会变得更容易解决,特别是当我们持续产生数据,而黑客宣称可以在12小时内突破大多数目标的时候。因此,我们需要尽可能多的工具(比如AI/LM),但我们也需要清醒且坦诚地面对手头处理的对象。网络安全是个技术问题,也是人的问题,但我们人类自身却一直都理解错了这一点。对人类认知限制的认识,是领先对手和恶徒的重要一步。