浅谈大数据处理对电子商务的影响

信息时代的基本特征是数据和信息呈现爆炸发展的态势。这一点在电子商务领域也得到了深刻的体现。随着电子商务在各个行业特别是零售行业的迅猛发展,并发访问量快速增加,同时数据的类型也呈现出繁杂多样的发展趋势。以淘宝网和天猫商城为例,在2012年11月11日这一天时间访问量就突破了2.13亿次,而且基本上是独立用户,同时线上交易额达到191亿元人民币,创下了单日网上交易新记录,显示出电子商务业的强劲发展势头。商品交易之外,很多服务行业或国家行政部门也加大了网上交易平台建设力度,例如火车票的网上订购、行政事业收费的网上交易等等。业务量和业务类型的快速增长带来的是海量的信息数据,诸如文本、图片、视频等,有调查显示大数据处理已经成为影响电子商务进一步发展的最主要因素。

一、大数据处理模式

在电子商务领域内,信息的大批量处理如果是以PB、EB、ZB为计量单位,则这些信息就构成了大数据。以往的计算机处理模式已经很难对这些大数据进行高效率的处理,势必会影响电子商务的总体发展。因此对大数据时代的计算机处理模式进行革新是获得电商行业整体突破的基本保证。传统的数据处理模式是数据库集群模式,大数据处理模式的基本要求是建构云计算Map Reduce处理体系,使信息的分解处理和结果合并成为可能。

(一)数据库集群模式

集群模式的基本运行原理是将同一种应用程序通过不同的工作方法相互协调共同完成,在面对客户端的数据请求时,为其提供单一映像,并将这些映像通过一定的连接技术和方法与硬件系统进行连接,整体上建构一个松散耦合的集合。简单来说,数据库集群模式实现了数据库技术和集群技术的结合。数据库集群模式的运行较为平稳,具有多方面的技术优势,例如强大的靠扩展性、整体的可靠性等等。

但是在面对大数据处理时,数据库集群也表现出了一定的缺陷。这些缺陷主要包含以下方面:第一是可扩展性补不强。如果系统功能节点的硬件基础设施选择的是Pc服务器,那么将会出现系统线缆繁杂、硬件高度复杂化和架设安装难度大等问题,对其扩展性造成了一定的限制;第二是数据通信受限。目前运行高速互联网的必备条件是将PCI插槽与主机进行连接。但是PCI的数据传送能力有限,不能满足节点间的数据通信要求;第三是提升空间小。这种空间主要是指数据库数据集的可扩展空间,在进行数据处理时如何解决系统的安全性、运算速度和可扩展性是数据库集群模式要面对的重要问题。此外,数据库集群模式还存在兼容性、可靠性、容错性、对异质条件支持能力等方面的局限性。

(二)Map Reduce框架

云计算构架主要是由低端服务器进行大规模集群构成的数据处理技术,在数据存储容量和数据处理能力上具有绝对的优势。由于云计算平台在运行中的可靠性和可扩展性等功能,目前众多的大型企业或单位都将其作为web搜索和大数据分析的主要平台,如中国移动、淘宝、网易、百度等等。Map Reduce框架主要包含三个方面的内容,即并行编程模型Map Reduce、分布式文件系统(HDFs)、并行执行引擎。

Map Reduce的设计是由google完成的,主要是进行大数据集的计算处理工作,代表了分析技术的整体发展状态。Map Reduce在进行数据处理时,先将对象进行抽象化处理,使其以映射和化简操作对的形式呈现出来,其中映射部分进行数据的过滤,化简部分进行数据的聚集工作,在工作中均以良好的界面进行管理工作。对Map Reduce计算过程进行分解,可以将其工作原理理解为将大数据集进行解构,解构之后的结果是形成了数量众多的小数据集,通过集群节点对这些小数据集进行分别处理,由此得出中间结果,将这些结果通过节点进行合并,就可以得出对整个大数据集的处理结果。

;