搞定大数据：AI和机器学习在数据处理与保护上的应用

发表日期：2017-04-05 10:15PM 阅览次数：

作为咨询师和顾问，有关各自数据、信息和网络安全事务时，重复“规模”问题挺有难度。不幸的是，上市公司的“外行”总监和管理人员，以及政府高管，倾向于将“规模”(当它属于数据保护的时候)看做不好的东西，甚至是令人恐怖的事物。

原因部分在于，几乎没有什么实用的方法，可以向这些位置上的人解释：某组织的安全运营中心是有可能每天收到百万个“事件”，以及，同时处理和调查这些事件的固有潜在危害，以及，适度保证没有任何一起事件能够溜过安全人员的检测。

大数据分析作为商业工具是很妙的一招，因为我们可以将这些数字转换成“商业利益”。但大数据也是网络安全的需要(比如，使用网络流量、数据、传感器和其他反馈，帮助确定网络正常模式和异常现象)，问题在于网络安全数据不太容易被转换成我们能轻易概念化的东西。

那么，我们产生多少大数据呢？我们又该怎样响应这些数据？有几个重要的基本问题必须得到很好的理解，否则更难的问题——我们怎样保护数据？就得不到解答了。

一、我们产生多少数据？

先从一个基本的概念开始：时至今日，数据意味着所有东西，无论是个人的，还是工作上的。我们生活中的方方面面，都已经转换成了这些“0”和“1”的组合。我们如今对数据的依赖是前所未有的，而且肯定还会越来越重，尤其是随着IoT的爆炸式发展。而我们产生的数据——无论好数据、坏数据、垃圾数据，也将持续增长(以惊人的速度)，不断吞噬全球网络上的空间(意味着如果你能够控制小小一部分这些数据流，就能发动邪恶的DDoS攻击)。

那么，到底有多少数据以近光速游荡在网络中？2016年6月思科的一份白皮书揭示：全球IP流量已进入“泽字节(ZB：2^70字节)时代”。很好，但ZB是个什么鬼？（下文会有解释）

二、回到基本规律

为解答该问题，我们需要从一些基本规律开始，首先就是：人类是有认知限制的。在试图理解超级大或超级小的数字上，这种限制就特别明显了。我们可以使用计数符号来表示大数字，比如 1 ZB(泽字节)就是 1 x 10^21 字节。但是，这个计数法对你有任何意义吗？

把100万表示成 1 x 10^6 可能对你还有点意义，但那是因为我们对“100万”的实际意义有着更好的理解。可以用美元来概念化“100万”以创建一个参考点：你的年薪是 $50,000，工作20年，只存不花，那就能攒下100万美元了。看下表，可以给你的年薪来个“增幅”：

哪种表示法看起来更爽？$1 x 10^9 还是 $1,000,000,000？好吧，其实都一样的数额，但后面的一串“0”显然看起来舒服多了。而且，更重要的是，看着后一种表示法中的一串“0”，不仅可以帮助人类理解该数字，还能更好地理解这数字代表的意义。为什么呢？因为我们用单词代表数值，而这些数值必须被转换成可感知的某些东西，我们才能在日常生活和网络空间中加以使用，因为规模、符号和认知的限制，该问题变得更难了。

三、概念化ZB

我们知道十亿(10^9)是什么，但我们管10^21叫什么？1,000的7次幂？现在觉得有个称呼好点儿了么？未必！

想象一下我们可以捕捉的一瞬间，就2016年全球IP流量的一个快照吧——1泽字节。我们能把这类比成什么呢？

用下面的表格，我们用一些例子以类比的方式重写了这些数字，概念化一下我们实际处理的东西。

注：本例中用 1.28 ZB (有些数字四舍五入了)，出于数学上的方便，完整写出数字时就用十进制值而非二进制了。不用过分纠结细节，至于技术宅，记得：更多的人说话方式是“非技术”的。让你的生活，以及他们的生活，更容易些吧，术语行话和烦人的细节什么的，能避免就避免。

尝试在脑海中具象化下面的数字：

*注：1 万亿米相当于1,000,000,000公里

如果地球到土星的距离对比很难概念化，不妨这么想：花8,000辈子一刻不停用脚走就走到了。如果这都还是难以想象，那就这样：128 GB 之于 1.28 ZB，相当于 20 美金的一张绿票票之于整个美国联邦债务——20万亿美元。于是，假设联邦债务以全球IP流量增长速率增加，到2020年美国总统大选之时，我们要讨论的就是46万亿的债务数字了。

四、概念化网络安全警报过程

那么，既然我们现在对数据产生和流量问题的规模有了更好的理解，我们就要考虑一下怎么管理了。

毫不意外的，被问到最大的安全事件响应挑战时，被调查的网络安全从业者中，36%的人称，“跟上安全警报的规模。”用上面20万亿美元来做类比，可以说，安全人员的任务就是每天从550亿美元中筛选，找出其中多少是合法的，有多少被盗了，有多少是被洗的，有多少是假钞。

FBI局长詹姆斯·科米在2014年 60 Minutes 的采访中对该问题给出了一个非常有用的描述(谈及中国网络攻击时说的)：

实际上，他们没那么强。我把他们比作喝醉的盗贼。他们一路踢开大门，撞倒花瓶，再顺走你家电视机。他们仅仅是多劳多得而已。他们的策略似乎是：我们就是时时刻刻无处不在。而他们无法阻挡我们。

关键句是“时时刻刻无处不在”，因为这就是现状。同一份调查中， 42%的受访者称自家公司忽略掉了相当大一部分的安全警报，因为他们完全跟不上警报的规模。当然，被警报淹没也存在无心之失的风险：“狼来了”太多次的后遗症。

但或许更令人担忧的数字是：34%的人称，1/4到一半的警报都被无视了，20%称一半到3/4的警报被无视，11%称超过3/4的安全警报被无视！额滴娘喂，这不就是无数大门被踢开，然后放任不管么。

再回到20万亿美元的对比，也就是每天要从550亿美钞中筛选的类比中。如果我们使用上述“忽略”数字，翻译过来就是：警报告诉我们有些不对劲的事情在发生，但我们太疲于应付了，我们不想拨冗查看价值150亿的日产警报。这可真是很多很多钱啊。

很不幸，该问题由来已久。警报忽略似乎与警报本身一样常见，而且如《思科2017年度网络安全报告》中揭示的：不到一半的合法警报切实触发了某种形式的修正，而仅不到1%的严重/关键警报被予以调查。 2014年，企业每天处理10,000个警报；2016年，政府部门每天处理50,000个警报；谁知道2017年底随着IoT爆炸式发展我们每天要处理多少警报呢。

不幸的是，尽管有良好建议，比如设置目标、获取正确的信息、巩固整合等等，我们依然疲于奔命，因为我们还是没解决“规模”问题。哦，还有，我们是不是还没提到，有时候网络安全分析师每天只能搞定10个调查？这就是AI和机器学习可以大展拳脚的地方了(也是为什么专注于网络安全问题的AI初创公司，是最好利用我们当前越来越脆弱的状况的原因了)

五、到底意味着什么？

这意味着，我们还有很多工作要做，意味着如果没有AI和机器学习帮我们解决网络安全挑战——感觉上是两码事而实际上就一码事的东西(提示：网络安全+信息安全=数据安全)，我们就一条道走到黑了。只要有人能命令并控制仅仅1%的全球IP网络流量，其后果都是灾难性的。

这想法听起来挺难以置信的，但很可能就真是这样，尤其是在想到IoT设备有多不安全(你的洗碗机有口令吗？)，以及向移动设备的迁移分分钟都不停脚的时候。这意味着只会有越来越多的人连接本就不安全的设备WiFi网络。

这些困难不会变得更容易解决，特别是当我们持续产生数据，而黑客宣称可以在12小时内突破大多数目标的时候。因此，我们需要尽可能多的工具(比如AI/LM)，但我们也需要清醒且坦诚地面对手头处理的对象。网络安全是个技术问题，也是人的问题，但我们人类自身却一直都理解错了这一点。对人类认知限制的认识，是领先对手和恶徒的重要一步。