启动大数据项目之前需要问的5个问题

发表日期：2017-04-01 10:14PM 阅览次数：

在关于设备性能，供应商关键绩效指标（KPI）和库存水平的每周报告之间，更多的数据可能是供应链管理者最不愿意处理的事情。

然而，每天有更多的数据不断涌现：根据IBM公司的调查报告，全球每天创造2.5EB字节的数据（即10亿千兆字节）。但它并不总是这样。根据IBM公司的计算，世界上90％的数据只是在过去两年创建的，而且报告中显示，企业使用数据可以节省数百万美元，并以前所未有的方式提高工作效率。

当企业预算收紧时，管理人员采用大数据以提高效率，这并不奇怪。毕竟，许多公司花费十多年时间来引进或升级数据处理系统，并采用云计算和/或物联网。现在，供应链管理者被要求使用这些数据，因此这说起来容易，做起来难。

人们需要认识到盲目启动项目所面临的挑战，JDA软件公司实验室负责人SureshAcharya对于大数据的应用进行了解析。

Acharya说，“没有什么是令人望而生畏的，有一个方法可以做到这一点。”他指出，供应链管理者在启动一个新项目之前必须问自己五个问题：

1.自己的业务案例是什么？

也许当管理人员试图应用数据时，其最大的问题是在头脑中没有一个能够解决的案例。当开始一个新项目时，供应链管理者应该有一个特定的业务问题要解决（比如，库存过剩），并能够量化（减少5％，将节省多少费用）。

“如果你从数据中找出需要解决的业务问题，那么这真的是本末倒置。”Acharya说。“你想要说的是：这是我想要解决的问题，是我所拥有的数据。那么是否打算收集或者购买和订阅，以帮助解决这个问题？”

“所以，需要确保你有一个业务案例，并试图解决一个业务问题，”他补充说。

2.有正确的数据源吗？

考虑到一个大数据项目作为一个需要解决的问题，而不是一个要完成的项目，这可能会表明目前可用的数据不是解决这个问题所需的信息。

“如果要查看库存或缺货情况，你有库存的数据吗？你有关于销售点或订单吗？或任何事情都可能是数据。你应该对想要解决的业务问题和拥有的数据源进行调整。”Acharya说。

提出此问题可能有助于在继续实施项目之前确定必须收集哪些其他数据。也许需要来自供应商的附加产品信息，或者来自零售商的不同销售点信息。如果合作伙伴不能提供此信息，则可能需要一种新的方法。

3.你的数据是否可用？

与第二个问题类似，供应链管理人员必须能够考虑如何记录和存储可以用来解决其业务案例的数据。

存在几种类型的数据，但无论数据是结构化的还是非结构化的，内生的或外生的，可以基于数据项目的性质来区分。换句话说，零售商和制造商可以收集各种非结构化数据，例如对产品的客户评论。但是，每一方收集，量化，分析数据的方式不同，因此根据他们的业务案例的需要可能完全不同。能够收集数据集不使它可用；业务实例的参数决定它是否可用。

“如果你认为有很多数据，但却没有真正检查是否会增加或帮助解决业务问题，那么你需要退一步并想办法解决。”Acharya说。

4.算法是否存在？

一旦商业案例被确定，并且可用数据被判断为相关和有用，企业必须确保问题可以基于当前可用的算法来解决...如果它不能，最好寻找一个更好的解决方案。

“这并不是说只要有数据，就一定有办法来帮助你解决它。无论对于学术界还是业界来说，有些问题确实是新的，这些问题尚未得到解决。”Acharya说。

“可能有一种方法来解决它，但这个具体问题可可能没有解决，所以你也需要做好探索算法的准备。”他补充说。

5.样本是什么？

如果所有上述条件都能满足，那么大数据项目是可行的。然而，只是因为可以做到，并不意味着执行者应该急于实施。

“所有这一切都应该首先在一个非常小的样本上进行测试。”Acharya说，“你想尝试一下小样本，然后如果它是可行的，已经解决了问题，那么可以开始扩大规模。“

就像生产运行需要原型和样本一样，大数据项目需要一个测试研究来确定可行性。在理想情况下，这样的项目将创建可操作的结果，但是如果算法或实施方法有问题，结果可能获得错误的解决方案。对于人们来说，不能实施项目总比错误实施项目要好。

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括：Java，C/C++，Python，PHP，Ruby，shell等各种语言开发经验交流，各种框架使用，外包项目机会，学习、培训、跳槽等交流

QQ群：26931708

Hadoop源代码研究群

兴趣范围包括：Hadoop源代码解读，改进，优化，分布式系统场景定制，与Hadoop有关的各种开源项目，总之就是玩转Hadoop

QQ群：288410967

启动大数据项目之前需要问的5个问题

站内检索

按日查询

下载安卓客户端