什么是大数据,为什么需要大数据?
“大数据”作为一个几乎耳熟能详的事物,一直以来都被我们寄予了深切的期望,那么,我们为什么需要大数据呢?
第一,人们的生活活动能够产生大量数据,而且这些数据是有意义的。比如上网、购物、出行及娱乐等,都会留下大量的数字“足迹”。分析个人的数据,就可以了解一个人在生活各个方面的喜好,比如喜欢的网站、偏好的内容、购物旅游的偏好性,以及对价格的敏感度等。这些信息可以用来提高网络广告的精确度和针对性。而不同人的数据汇总在一起,又可以揭示旅游热点、出行规律和疾病趋势等。
这些数据在手,可以使得人们的生活变得更好、更方便、更安全。比如说,政府和企业更好地指导和安排他们的工作;又如春运期间从A地到B地安排多少车辆,在新年集会热点地区提前做好安保工作,等等。
同样,这一理由也适用于其他领域,如基因测序。随着科技的进步,新测序手段不断出现,使得每百万碱基的价格直线下降:人类基因组测序时使用的Sanger测序法,每百万碱基的成本大约是2400美元。2004年,454测序仪诞生,直接将百万碱基成本降为10美元。而美国Illumina公司的边合成边测序方法的成本最低只有5美分。而国产测序仪BGISeq-500,据说成本更是低至1美分以下。
这就意味着,可以用10年前相同的资金获得千万倍以前的数据,甚至于更多样品的数据。而更多的数据通常意味着可以着手解决更复杂的问题,或者把同一个问题研究得更清楚。
第二,人们有能力处理大量的数据。这种能力主要体现在3个方面:首先,用于处理数据的硬件速度越来越快,网络传输速度正在加快,但价格却越来越便宜。这有利于解决大数据的存储、传输和计算能力的问题。
其次,技术的进步使得原本用专业硬件才能实现的计算平台,现在只需用商用硬件(Commodityhardware)就可以搭建了。比如分散式存储(即所谓的云存储)可以用普通硬盘代替服务器硬盘保证数据安全;用普通计算机或小型服务器连接在一起(即云计算)代替超级计算机。这些技术进步大大降低了分析大量数据所需的硬件和资金门槛,从而大大加速了大数据的普及。
最后,人工智能的飞速发展使得分析大量数据、从中提取有用信息变得可能。大量的数据可能意味着有用的信息被埋藏在一大堆背景噪音里,把有用的信息从中挖掘出来,需要强大的分析手段。深度学习就是近年来发展起来的一个机器学习的分支,它能把原始数据通过一些简单非线性的模型转变成为更高层次的、更加抽象的表达。
举例来说,一幅图像的原始格式是一个像素数组,在第一层上的学习特征表达通常是指在图像的特定位置和方向上有没有边的存在;第二层通常会根据那些边的某些排放来检测图案,这时候会忽略一些边上的某些小的干扰;第三层或许会把那些图案进行组合,从而使其对应于熟悉目标的某部分,随后的一些层会将这些部分再组合,从而构成待检测目标。
更直观地说,如果有一幅图片,当眼睛贴到图片上看的时候,只能看到几个像素,看不出来图片具体是什么。稍远一些,就能看出一些模糊的景象。站到很远的地方再看,反而能看得清全貌了。每远一点儿,就会忽略一些不那么重要的细节(某些像素点),但同时对图像全貌的把握就更多些。这个过程就是所谓的“抽象化”。每一层的学习,每站得更远一些,就是一个离抽象化更近的过程。最后宏观的图像是由底层的微观像素通过一层一层传递、抽象,然后再堆砌出来的。
大数据分析就是这样一个去芜存菁,将有用数据一步步提取、精练,把无用或重复的数据一步步去除、精简的过程;甚至最后把所有的数据汇总成一幅图片、一个表格,让人能一眼看出其中的规律。因此,深度学习和其他机器学习方法的发展和应用会极大提高人们处理大数据的能力。
第三,解决复杂的问题需要大数据。复杂的问题是指那些有许多因素共同作用、影响最终结果的问题。此类问题在科学领域最为常见,其中许多也与人们的生活息息相关,如天气预测、地震预测等。在生命科学和医学领域,此类问题就更多了。
举例来说,目前发现的2000多种人类疾病(也有资料说是6000多种;许多疾病的亚型也被当作是一种独立的疾病)当中,大多数都是由多基因控制的,是多个基因共同作用的结果。也就是说,哪些基因发生突变,突变的位置在哪里,突变的类型是什么,都会影响到最终的疾病表现型,即最后是否得病,以及病情的严重程度。
除了基因组的数据之外,影响疾病的因素还有很多种,如性别、年龄、生活环境和生活方式等。这些因素之间相互作用,同时和基因组也有相互作用。这么多因素排列组合在一起,是一个相当庞大的数字。所以在收集病人样品时,就需要有足够的量,以使可能影响疾病的每一个变量的变化都在样品中体现到。
然而在大多数情况下,病人的样本数量总是有限的,财力也是有限的。如何从有限的资源入手,去推测哪些基因、突变位置和突变类型的组合是有意义的,是重要的,就需要复杂的算法,如人工智能。因此,解析人类疾病这类复杂的问题,不仅需要大量的数据,还需要革命性的分析方法和手段,这些都是大数据的使命。
本文来源于:基因空间
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ