如何像专业人士一样挖掘大数据?

髋关节置换手术需要多长时间?

这对医院来说并不是学术问题。2015年,医院约有360亿美元的无偿保健费用,其中大部分来自患者未付的账单。

这个问题的一个解决方案是限制与手术相关的成本,但是如何才能达成呢?答案是机器学习。医院如今利用预测分析学来预测手术的平均时间和潜在问题,如髋关节手术。

例如,医疗保健购买者的数据显示患者年龄、核心医疗保健提供者和二次诊断。使用机器学习和预测分析,数据可以估计未来的成本,帮助确定可能在恢复中出现问题的患者。此举可使医院做出更好的临床决定,降低二次入院率,缩短患者的住院时间,并提供更好的护理。

各地企业在使用机器学习分析数据的过程中,发现了类似的现实效果。但问题是效果周期往往短暂。

弗雷斯特研究公司(Forrester Research)的分析师Mike Gaultieri指出,机器学习并不像传统的商业情报工作那样,其结果是确定的。他说:“如果你在寻找一种机器学习模式,可以说‘我会尝试’,但你可能无法成功实现。企业应该明白仅仅因为希望拥有预测股市的模型,并不意味着就会实现愿望。”

DXC技术分析数据实验室是数据科学家的全球研究中心,他们专注于咨询和寻找实施分析的方法。实验室负责人Rags Raghavendra表示企业的表现令人沮丧,因为它们往往承受太多负担。他说:“客户在尝试挖掘其有权访问的各类数据的意义时往往好高骛远。我们建议着眼于自己可以访问的数据,然后再着手下一步的行动。”

如果企业尝试但未能从数据中挖掘到有用讯息,首先应该接受失败和重复是这一过程的一部分。但是,通过更巧妙地使用机器学习,他们可以最大限度地提高成功几率。以下是使用机器学习的八种方法:

从想要解决的问题开始。直接研究数据,期待立即发现有用讯息是错误的方法。正确的数据研究方法始于确定正确的性能衡量标准,这种标准将业务成果和与数据相关的问题联系起来。但是,所选标准应该适当。例如,当DXC最近与媒体公司合作,解释订户离开的原因时,最直观的标准是“订阅者基数”。事实证明,相关标准是每个用户的平均收入(ARPU),这与公司为增加收入而制定的较大业务目标直接相关。

使机器学习过程产业化。Raghavendra表示:“大数据分析的整个过程尚未实现工业化,”其实验室支持包括制造业、电信、汽车、航空、能源、金融服务和医疗保健在内的各种行业。“很多时候,你一再重复分析或无法扩展分析。”DXC是工业化机器学习的坚定支持者,这种学习模式简单高效,认为分析中的所有阶段,即从抽取和清洗数据,构建算法,到将其投入生产并获取有用讯息,应在企业技术上可重复使用和部署。

无需担忧筒仓。筒仓是许多企业进行数据挖掘项目的灾难,因为它们阻止访问统一的数据池。但是,筒仓并不像有些人认为的那样是巨大的障碍。Raghavendra说:“如果你有智能数据和平台战略,就无需那么担忧筒仓。”简言之,只要不是你选择的所要解决的问题,就不必对此担心。然而,你应该通过整合不同的数据源来准备解决以后出现的问题。“灵活和模块化的平台允许你在需要时整合数据,”Raghavendra补充说道。

思考外部程序。你并非总是拥有所有的信息、人才、分析和智慧。这是一个关乎生态系统的问题,那些挖掘他们周围事物的能力的人将会获胜。众包数据科学家、机器学习和外部数据集都具有强大的潜力。

使用 数据湖 。 数据湖就是存储库,不管格式如何,你都可以按原样存储所有现存的数据。Raghavendra表示,公司应该把所有数据放在数据湖中,即使起初不知道如何使用它。但不要一开始就考虑构建数据湖。

带着目标实施探索性数据分析(EDA)。 数据挖掘的第一个阶段是EDA,旨在总结可视化和非可视化数据。DXC高级数据科学家Bharathan Shamasundar说:“我发现探索性数据分析总是被置于筒仓内。“EDA的目的是提供有关数据模式的见解,并告知人们下一步应做的事情。但通常情况下,公司只是敷衍了事。”DXC与能源公司的经验强调了智能EDA的重要性。该公用事业公司正致力于准确预测风力发电机所产能源的数量。由于该公司将EDA应用于算法,DXC团队抨击了现有标准,该标准认为涡轮机95%的时间都在发挥性能,尽管使用较少的变量进行计算。这种经验表明有意义的EDA(提前完成),将会更经常得出适合现有数据的算法。

使用智能抽样。公司无法从大数据中获取有用讯息的一个原因是,他们使用的太多。Shamasundar说:“抽样这个词语变得不堪入耳。数据抽样对于处理数据来说十分明智。”通常,“大数据”看起来充满了冗余信息。对于商品贸易公司,DXC确定存储中的大部分数据都是多余的,因为其94%的贸易交易是基于较小的数据子集。这表明评估质量和相关性是数据战略的重要组成部分。

为数据科学计划制定灵活的操作模式。Raghavendra建议:不要因为不能雇用数据科学家而推出数据分析程序。数据科学家的需求量目前比现有数量高出60%,并且尚未有迹象表明这种差距正在缩小。Raghavendra表示,如果企业无法配备足够的数据科学家,他们应该考虑使用提供专家分析支持和“公民数据科学家”的合作组织。公民数据科学家了解雇主企业的所在领域和业务经营。他们可以使用现成的分析平台来进行合理的分析,这些平台简化了数据挖掘的某些任务。随着企业利用分析解决问题,合作伙伴可以帮助扩展程序,并在多个领域建立更深层次的功能。

尽管遵循这些准则能提高成功几率,但企业需要记住失败也是真实存在的。基于证明或反驳假说,数据科学利用科学方法研究数据。利用数据应被视为一种研发活动。研究数据查询的Gualtieri表示:“最好有六个或十几个想法,并同时实施这些想法,因为并不是所有的主意都能产生效果。”

随着数据量不断增加,挑战将变得越来越困难。从另一方面来说,拥有的数据越多,潜在的奖励就越大。

根据DXC思想领导部门前沿论坛研究主管Dave Aron的说法,许多公司仍把自己最重要的资产视为物质和金融。

Aron表示:“未来十年,企业将会把信息视为资产,建立并不断改进他们的分析和学习平台。物联网和日益增多的数据保护立法使这个问题变得愈发重要。”

从数据中获益,无论是医院、公用事业单位,还是其他任何业务,都将采取审慎的策略,下定决心使用并尊重科学方法。

;