数据挖掘为何能成为公司差异化竞争的核心?
数据挖掘是通过大量的数据集进行排序,自动化识别趋势和模式并且建立相关性的过程。
现在的公司通过各种各样的途径收集海量的信息,这些信息来自于网站、公司应用、社交媒体、移动设备和不断增长的物联网(IoT)。
最大的问题是:如何从这些信息中找到真正有用的商业价值?这就是数据挖掘的用武之地。数据挖掘是通过大量数据集进行排序的自动化过程,以通过数据分析来识别趋势和模式、建立关系,解决业务问题或探寻新机会。
查看数据不仅仅是看看过去发生的事情,以便能够在现在智能化。数据挖掘工具和技术可以预测未来会发生什么,抢占先机。
术语「数据挖掘」在IT行业中被广泛使用。它经常应用于各种大规模的数据处理行为,如数据采集,数据存储和提取以及数据分析。还有帮助决策的其它应用技术,如人工智能、机器学习和商业智能。
数据挖掘应用于业务和研究的方方面面,包括产品研发、销售、营销、遗传学和控制论等。如果数据挖掘和预测分析工具使用得当,将为公司带来明显的竞争优势。
数据挖掘中获得商业价值
数据挖掘的真正价值在于能够利用数据中的模式和关系的形式挖掘隐藏在数据背后的宝藏,也就是数据挖掘可以得到对企业有重大影响的预测。
例如,如果一家公司的某种特定型号的产品通过某种活动在某些地区而大卖,而在其它地区没有得到相应的销售效果。将来重新调整该活动策略的时候可以通过数据挖掘得出分析结论,帮助公司获得最大回报。
数据挖掘技术的收益多少取决于业务类型和业务目标。比如,零售业的销售和营销主管也许会以不同方式挖掘客户信息,来提高转化率。航空公司或者金融行业就不能。
无论什么行业,过去通过数据挖掘可以分析销售模式和客户行为,如今可以通过数据挖掘预测未来销售模式和客户行为。
数据挖掘可以做到趋利避害,以上对销售的预测可以被加以利用。数据挖掘也可以评估出什么对业务有害。比如,可以通过数据挖掘提高产品安全性,或探查出保险和金融服务交易中的欺诈行为。
数据挖掘应用
数据挖掘可以被广泛应用于各行各业。
零售业。 通过挖掘客户过去的消费行为数据知道客户喜欢购买什么产品,还能知道一年中特定的时间段什么商品最热卖。这些可以帮助商家合理安排货物库存。
银行和其它金融服务供应商。 通过挖掘客户账户、交易和理财偏爱通道等数据,更立体地了解客户以提供满足其需求的服务。也可以通过分析客户在网站和社交互动中的行为数据,增加现有客户的忠诚度,吸引新客户。
制造公司。 通过数据挖掘探寻产品生产流程模式,制造公司可以使用数据挖掘在生产过程中寻找发展模式,从而可以精确地识别出瓶颈和缺陷,并设法解决问题提高效率。还可以将数据挖掘应用于产品设计,并根据客户体验的反馈进行调整。
教育机构。 数据挖掘分析预测学生未来学习行为和学生表现,通过这些分析改进教学方法和制定新课程。
医疗健康。 医疗健康提供者可以挖掘和分析数据,向患者提供更好护理方式和体验,也可以降低成本。通过数据挖掘医疗机构可以预测需要照顾的病人数量以及患者需要什么类型的服务。在生命科学领域,可以挖掘大量生物数据,并从中获得洞见,帮助公司开发新药和研究其它治疗方法。
在包括医疗健康和零售在内的多个行业,公司可以使用数据挖掘来检测欺诈和其他滥用行为,通过数据挖掘识别要比传统识别此类行为的方法快得多。
数据挖掘的关键组件
数据挖掘过程包括满足不同需求的几个组件。
预处理。 在应用数据挖掘算法之前,需要构建一个目标数据集。数据的一个常见来源是数据集市或仓库,需要执行预处理才能分析数据集。
数据清洗和准备。 为了消除数据「噪音」,目标数据集需要经过清理和准备,通过缺失值处理、过滤外围数据点(用于异常检测)来避免错误,或者做进一步的探索,创建分段规则以及执行与数据准备相关的其它操作。
关联规则学习(也称为市场篮子分析)。 这些工具搜索数据集中的变量之间的关系,例如确定商店中的哪些商品通常被一起购买。
聚类。 聚类不需要已知结构,发现数据集中相似的组和结构。
分类。 执行分类的工具将已知结构推广到新的数据点,例如电子邮件应用程序尝试将邮件分类为合法邮件或垃圾邮件时就是这样的数据点。
回归。 这种数据挖掘技术用于在给定特定数据集比如销售量、住房价值、温度或价格时,得出预测数值范围。
概括。 这种技术提供数据集的紧凑显示,包括数据可视化和生成报告。
数十家供应商提供数据挖掘软件工具,一些供应商提供专有软件产品,另一些供应商提供开源软件产品。
提供专有数据挖掘软件应用程序的主要供应商包括Angoss,Clarabridge,IBM,Microsoft,Open Text,Oracle,RapidMiner,SAS Institute和SAP。
提供开源数据挖掘软件和应用程序的公司包括Carrot2,Knime,Massive Online Analysis,ML-Flex,Orange,UIMA和Weka。
数据挖掘的风险与挑战
数据挖掘带来了风险和挑战,像其它与敏感信息和个人身份信息相关的技术一样,安全与隐私是最大的问题。
进行数据挖掘之前,数据要满足根本的需求,那就是完整、准确和可靠。毕竟,是对这些数据挖掘分析来制定重要的业务决策,而且需要经常与公众、监管机构、投资者和业务合作伙伴进行互动。现代数据形式还需要新的技术,利用这些新技术比如将来自不同分布式计算环境(又称大数据集成)的数据集成,以及将图像、视频、时间数据和空间数据等更复杂的数据组合在一起。
获取正确的数据,然后将其聚合起来,这样才能进行数据挖掘,IT的挑战不止这些。云计算、存储和网络系统需要使数据挖掘工具拥有更高的性能,数据挖掘得到的信息,需要清晰地呈现给有需求的用户,需要具备数据科学和相关领域的专业人才等。
从隐私角度来看。挖掘与人们行为方式相关的信息,如购买什么,访问什么网站等等,会担忧企业收集这些信息是否合理。这不仅影响公司技术实施,还会影响公司业务战略制定和风险预估。
收集个人信息除了受到道德约束外,还要受到法律的约束。有些法律规定如何收集数据、如何进行个人识别、如何共享数据。这一方面众所周知的法律有,美国「健康保险携带责任法(HIPAA)」和欧盟「通用数据保护指令(GDPR)」。
在数据挖掘中,前期准备的初始行为本身(例如聚合然后使数据合理化)也许会披露危及数据机密性的信息或模式。因此,可能不经意间就违反了道德或法律要求。
数据挖掘过程中的每个步骤都需要数据保护,防止数据被盗、被改变和被秘密访问。安全保障包括加密、安全控制和网络安全机制。
数据挖掘是差异化竞争的核心
尽管有这些挑战,数据挖掘已经成为IT战略的重要组成部分,公司希望通过挖掘他们采集的信息或可以获得的信息获得商业价值。随着预测分析、人工智能、机器学习和其它相关技术的不断进步,这一驱动力无疑将越来越重要。