核桃运算创办人:大数据为何「现在」出现
就大数据的出现来说,适宜发展(Goldilock)、重新思考(Rethink)和时机(Opportunity)是三个主要要素。其实现今数据分析利用的技术概念早在二、三十年前就出现了,至今变动不算太大。但是从电脑/数据科学家的角度来看,薛总经理殷切地叮咛着正经历大数据时代的我们:「你所处的这个时刻对人类来说是非常非常重要。」
Goldilock:不冷不热的这些时刻
自宇宙大爆炸开始,恐龙生灭、冰河时期,一直到人类聚落出现,甚至是现在各种新奇电子装置的产生,每个重要时间点都由一些大事标注。那些当年不冷不热、刚好出现而发生的时刻,就是Goldilock。 我们回顾历史可以发现「有些事」发生了,但更重要的是它「什么时候」发生。
1970年前后,不论是英特尔公司的第一张晶片、现代电脑雏型、或是数据数据库的理论等,都在此人类重要的时刻萌发。这些硬体设备的革新的确都跟着摩尔定律(Moore’s law)以每两年宽一倍的趋势持续进步。[注2] 而当年设计出程式C语言的Dennis Ritchie、Kenneth Lane Thompson和Brian Wilson Kernighan,对软体步步成长开发的贡献极为重大:若是没有 C 语言的诞生,就不可能发展出现在的 Linux、BSD、Mac OS等系统;当然,我们也不会有机会看到Steven Jobs创造的苹果传奇。
70年代以来一直被视为理所当然、但其实想法较为落后的电脑运算模式(computing model):就像木工匠的工作台(workbench),把数据库叠床架屋地放在外面,有多少空间做多少事。然而,过去的数据量很小,代码大小(code size)都可能比数据数据(data size)还大,一直演进至现今的应用,数据量已经远远大于代码大小了。
空间决定了容量。大量数据在以前的运算模式可能因为空间有限而无法计算,大数据的运算概念则是从有限空间延伸到无限空间。给予2^64位元(可以计算看看这个天文数字,约莫曾曾曾孙的年代会得到结果),把所有数据放在距离CPU都一样近的地方,不用再将数据搬来搬去的。如此你可以得到即时迅速的大量数据分析,用无限大而永续的空间来换取直接的操作 。
资源可能可以无限大,但是人的时间是有限的。举SARS时期来说,你若须花费两星期才能测出得病与否的话,病人可能都撑不下去、先走一步了。利用「空间」换取「时间」,也得到「速度」--速度是人类永远重要的基础概念。
薛总经理谦虚地说了,核桃运算的任务便是不断设计出更适合巨量数据演算的模式,以利数据分析,提供情报给新颖的应用。大数据本身是一个「现象」而不是「问题」。在有限、能够容忍的时间内解决大量的数据,重点就是你想要「问它什么问题」?试想,如果回到当初,给予那三位创造者2^64的无限空间,他们会做出什么不一样的东西?
可能现在就是Goldilock,当大家开始把作业第一步的假设拿出来重新再讨论的时候,这个年代也许会有新的或是更高的智慧发生。最后,薛总经理鼓励我们:「现在,你们有这些应用,你们可以重新翻转过去旧的想法,然后创造出伟大的东西。」
--------------------------------------------------------------------------------
注1: Goldilock 一词源自于格林童话故事《金发女孩与三只熊(Goldilocks and Three Bears)》的故事情节。故事中的金发女孩Goldilocks擅入三只熊的房屋内,看到桌上三碗粥,太热的、太冷的都不吃,只挑不冷不热的吃;又只选坐不大不小的椅子和不软不硬的床。
后来在天文学里,「金发姑娘地带」指的是一个星球周围的宜居地带。经济学家则引之形容高成长、低通膨的「新经济」状态,因此「金发经济」指的是不过冷(not too cold)、不过热(not too hot),温度适中(just right)、美梦一般的市场。
注2: 摩尔定律(Moore’s law): 由英特尔创始人之一戈登·摩尔提出来。指相同售价、尺寸相同的晶片上(积体电路),可容纳的电晶体数量,因制程技术的提升,每(24个月)18个月会提高一倍(效能加倍);晶片的容量是以电晶体(Transistor)的数量多寡来计算,电晶体愈多则晶片执行运算的速度愈快,当然,所需要的生产技术愈高明。
--------------------------------------------------------------------------------
【关于 M. I. C.】
M. I. C.(Micro Idea Collider,M. I. C.)微型点子对撞机是 PanSci 定期举办的小规模科学聚会,约一个月一场,为便于交流讨论,人数设定于三十人上下,活动的主要形式是找两位来自不同领域的讲者,针对同一主题,各自在 14 分钟内与大家分享相关科学知识或有趣的想法,并让所有人都能参与讨论,加速对撞激荡出好点子。请务必认知:参加者被(推入火坑)邀请成为之后场次讲者的机率非常的高!