大数据未来发展瓶颈在哪里?
德勤曾经发布过一篇《大数据,大而恒久才是美》的报告,其中指出,大数据对我们时代的改变将越来越深刻。在报告中,德勤认为,真正会制约或者成为大数据发展和应用瓶颈主要有三个方面: 第一,第二、大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。第三、大数据结论的解读和应用。
1、合法性问题
大数据需要收集和提取私人数据,如何界定私人数据与公共数据的界限,如何保护个人的数据隐私权,灰色地带在哪里?这种标准的制定,为现实的法律提出了要求。
大数据合法性问题的根本点,在于对数据隐私的保护和数据隐私应用之间进行界定和权衡。国外大数据专家已经指出了大数据在这种抉择中所存在的局限。
从传统意义上来说,对人们有价值的数据分析结果,都有一定的前提和明确的指向,但是大数据却无法保证这种指向在价值观上的正确性。举例来说,如果没有人提供现实的背景或价值观来进行指导,大数据本身是无法区分病毒基因和一个有价值的文学巨著之间的重要性差异。
如果漠视这些局限,将导致机器从自身机能所得到的结论,与人所固有的复杂人文价值,譬如直觉、社会背景和伦理大相径庭。机器能帮助政府分析出某些人聚集的地点,但是无法给出这些人是善意还是恶意的判断;机器能够帮助企业对消费者的行为进行分析,却无法确定这种分析是否已经越过法律边界而给企业带来风险。
与这一局限有关的一个明显的例子是,谷歌被指责利用其本该只拍摄周围全景照片的街景车系统自动接入并窃取部分个人Wi-Fi数据。谷歌因此面临来自法国政府的法律制裁。尽管谷歌后来成功地对其行为进行了合法性辩护,但仍有许多伦理问题需要慎重考虑。
2、共享与安全
大数据的本质是开放与共享,但是现实情况是需要数据共享的各个行业之间存在各种壁垒,如何解决目前仍是业界普遍面临的难点。
在商业领域,大数据的共享往往只限于企业内部或相关联的合作者之间,企业之间的大数据之所以没有做到完全共享,其中最显著的问题是企业对彼此数据安全的不信任,很多企业担心,大数据系统收集海量未分类、未经分析的数据,这些数据由于过于庞大,无法得到像传统数据库对数据部署的相同级别的保护,认为将企业数据接入大数据运算的安全成本较高,得出的结论也不一定可靠。
这方面的例子也偶有发生,在2013年4月,一家新闻机构的Twitterfeed被黑客攻击,该黑客发出了虚假tweet,声称白宫正受到攻击。这则消息广泛传播后,被行业大数据当作核心数据加以分析后,得出市场走衰的结论,导致几家使用这一大数据系统的投资机构开始抛售股票,最终都不可避免地遭遇巨大的财产损失。这样的故事给我们敲响了警钟,数据,即使是大数据,并不一定是准确或者可行的。
商业领域的大数据,如果因为企业利益的担心而步履蹒跚,尚且情有可原。但对于公共领域的大数据来说,政府有责任对其公进行整合和开放。但是由于公共部门的技术滞后,导致各个领域之间的公共数据难以做到及时共享。有专家表示,严重的问题是,信息共享,现阶段在某些部门内部都没有得到解决,“有数据的不挖掘,会挖掘的没数据”,更不用说面向公共领域开放。另外,在大数据方面缺乏相应的立法,无法既保证数据共享又防止信息滥用,而中国能理解和应用大数据的人才更是少之又少,这就进一步拖慢了大数据落地的步伐。
值得一提的是,在大数据共享方面,美国政府已远远走在了世界各国的前列。美国联邦政府建立了“Data.Gov”网站,用于开放公共数据并鼓励挖掘。目前,该网站共有超过3721项原始数据、386429项地理数据、1570个数据可视化应用。人们可以从这些数据中找出空气质量与工厂数量、胖子数量与快餐店多寡等关联。这对经济、环保等领域的研究有着非凡的意义。
3、解读与应用
对于大数据的结论如何解读,从哪个产业的利益出发来分析?应用的多元化,将引出不同层面的大数据价值,这需要想象力。
就算大家都相信大数据的作用,但并不是所有的大数据提供的解决方案都相同。由于数据分析的量级、角度和系统计算方式的差异,如果不同系统之间所作出的大数据分析出现差异,或者相反的结论,我们该如何判断和解读?如果说对大数据的处理和分析,就好比沙里淘金;那么围绕着大数据结论的价值判断和应用方式,就更需要精益求精。也许未来会出现针对海量计算系统之间的预测准确性分析,但是在大数据刚刚起步的阶段,仍需要人为地介入。
对于企业来说,目前从大数据中获得的洞察是否具有实际价值,将取决于他们是否有信心来对这些洞察付诸行动。对于社会管理者来说,即便是通过公共信息得到的大数据结论与真实非常接近,也需要实时对“差别隐私”所带来的风险进行预估,以规避计算模拟与现实世界之间固有的不可计算问题。