李国杰院士:发展大数据不能抛弃“小数据”
■李国杰
当前,全国各地都在建设大数据中心,有些偏僻的山区都建立了容量达2PB(拍字节)以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。其背后的问题是,这些系统的成本都非常高。
数据挖掘的价值是用成本换来的,不能不计成本、盲目建设大数据系统。什么数据需要保存、要保存多长时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低到原来的千分之一,计划到2024年才能研制出来。因此,用现在的技术构建的巨型系统,能耗极高。
一味追求数据规模不仅会造成浪费,而且效果未必很好。多个来源“小数据”的集成融合可能挖掘出单一来源大数据得不到的“大价值”。因此,应在数据的融合技术上多下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB(太字节)已经是很大的规模。
此外,大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件无力应对非结构化数据,所以要重视数据融合、数据格式的标准化和数据的互操作。数据质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。比如,脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。
可见,发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。
实际上,发展信息技术的目的是为人服务,检验技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。所谓技术有限、应用无限,各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。
目前流行的大数据定义是“当前技术无法处理的数据集合”,这种针对未知技术的定义强调大数据不同于数据库等传统技术能对付的小数据,有利于推动基础研究、激励探索新技术,但可能引导大家只重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题,不管是大数据还是小数据。
统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。
因此,我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。
(本报记者赵广立摘编自中国工程院院士李国杰《对大数据的再认识》一文,经授权发布)
《中国科学报》 (2016-03-29 第5版 技术经济周刊)