缺乏数据安全技术和急于求成是制约中国大数据公司做大的原因
近日,爱分析在京举办了2018·中国大数据高峰论坛。针对数据服务这一大数据行业重要细分领域,爱分析邀请了数据服务领域标杆公司TalkingData的创始人崔晓波进行主题演讲。
会上,崔晓波就中美大数据市场差异与联系、数据智能应用的演进路线、数据智能的商业化落地等方面,展开深度讲解。
现将TalkingData创始人崔晓波的主题演讲实录分享。
演讲实录
崔晓波:今天我分享的主题是“数据智能应用和商业模式发展”。
数据智能是在过去两年里面才提的一个词,我坚信在未来的5到10年里面是非常关键的词,因为数据和智能本身就是一体两面,智能离不开数据,数据也离不开智能,如何运用好数据去创造智能,这是企业在未来不断探索的方向。
我从几个方面讲一下我们过去这几年,在大数据,特别是数据服务这个领域里面的探索和思考,以及我们看到的整个市场的状态。
一、中美市场的差异与联系
中美大数据的异同和联系,用一句话概括就是, 数据是连接中美智能应用的桥梁 。
2014年我们在硅谷设立了研发中心,对美国的投资也比较多,在这个过程中,我们发现很多有意思的事情。
我先举两个例子,前年和去年我们和Kaggle——世界上最大的数据科学社区——做过两个活动,第一个活动是我们提供中国脱敏的移动互联网数据,希望全球的科学家帮我们预测用户的人口统计学信息,包括性别、年龄。大概有2600个团队参加,为我们提供了约两万个模型。这里很有意思,我们发现提交的模型中,有用我们的数据集预测中国经济,比如用手机价位信息计算中国GDP情况和经济分布情况,还有用数据来计算中国人的行为变化。
通过这样一个实验,可以知道数据的用法非常丰富,但既依赖于场景,又依赖于领域知识。所以中国人真正缺乏的是各个领域如金融、地产、零售、互联网、工业里的知识,我觉得这里还需要很长的时间去探索。
最近我们又发布了一个活动,这个活动更有意思,我们提供了在反欺诈里面碰到的一些问题和数据集,但很多在国外的数据科学家,他们没有碰到过这么大量级的数据集相关问题。所以中国应用领域已经走到了非常前沿的地方,但是我们缺乏技术和基础设施。
过去几年里面大家提数据交易,政府也在筹建数据交易市场,但没有解决根本的问题。
通过去年的网安法,还有我们最近和监管部门的交流可以确定,数据作为原材料是不能被交易的。
另外你会发现 真正拥有数据的企业不愿意把数据放出来,它的顾虑不是为了要垄断,而是因为还有很多技术问题没有被解决。什么样的技术问题没有被解决?就是数据如何安全的被共享,数据如何合规的问题 。
数据安全完全不同于我们以前说的网络安全,因为以前我们对数据安全的理解只到这个层次,企业整个IT系统大概是由云、IDC以及内部网络构成。所以在网络外面有一层边界,企业要守住这个边界,不能让黑客进来。如果这一层边界都有问题,或者是企业有内鬼,怎么解决数据安全问题?而 Facebook数据安全投入是非常大的,也出现了非常新的数据,比如说我们看到一种技术,在网关上的设备可以看到企业所有的数据流动,这些信息是如何从一个点到另外一个点,是如何流动被使用的。而在中国完全没有积累,技术差距5到10年。
欧盟有史以来最严苛的个人隐私保护法GDPR在下个月就会正式实行,如果侵犯了欧盟成员国的个人隐私,罚金是企业全年收入的4%,或者2000万欧元,取高值。所以没有企业敢对这件事情不重视,并且企业会投入很多精力做这个事情。
我们也在解决这些问题,我们推了一个体系,就是在数据不流动的情况下也可以共享。因为以前解决不了这样的问题,A和B合作,数据相互不愿提供,很难达成合作。但如果找到一个方法,数据都不用出去,就能解决这个问题。
业务的问题要回归技术,最终还是用技术本身去解决问题,这是中国企业所欠缺的。所以我觉得中国下一步数据服务就会被限制在技术上。
所以这是我们从美国能看到的。
二、我们看世界的角度将从实体物质化转化为数字虚拟化
现在有很多做应用的公司,像Stitch Fix是服装行业公司,你会发现它的公司里面一半多是数据科学家,不是传统的运营人员,他们每天就是用数据帮你选衣服,帮你优化供应链。
这是真正的一个大趋势。
这一趋势可以用一句话概括,我们看世界的角度将从实体物质化转化为数字虚拟化。
Google在2014年、2015年就把大部分的资源投入到机器学习,Google的人告诉我未来一定是机器学习深度学习的时代,而在2016年就出现了阿尔法狗。
我一直在深思为什么出现机器比人强的情况。大家研究技术都会知道阿尔法狗的核心是算法模型,包括搜索、价值网络和策略网络,但是它的策略网络的平均值只有0.5几,真正做决策的时候不如人,他能下过人就是因为它的蒙特卡洛树搜索太厉害了,就是通过在虚拟世界里面无尽的算力,达到机器学习的过程。
后来我去MIT见无人车领域的顶尖专家,问他无人驾驶L5技术到底需要几年能成熟,他笃定的说十年左右,这是我听到的最乐观的估计。
阿尔法狗是把物理世界的问题数字虚拟化,之后就可以用不断增长的计算机算法去加速它的学习过程,达到能够破局的效果。
但是在绝大部分领域做不到这一点,因为如果一个机器或者一个算法不能帮人做决定,那么对这个行业,第一没有颠覆,第二没有价值。
自动驾驶技术达到L5肯定就颠覆了原有行业,就是完全的自动驾驶,但是在L3以下就是辅助驾驶。在医疗领域,如果机器给出的结果真的能作为诊断结果,那也是颠覆,但是如果这个结果只能辅助人类,价值就有限。
要达到这个阶段,所需要的时间远比我们想像的要长。
所以现在大家对人工智能过于乐观,我相信未来几年会有回落,不过技术本身是有价值的。
三、大数据通过四个步骤改造一个行业
我们再看一下行业,TalkingData成立了七年时间,服务了很多行业,我们可能是大数据公司里面涉及行业最多的。从我们的角度来看,不管是哪一个行业,基本上都是这四个步骤。
1, 业务数据化
2, 应用场景化
3, 流程自动化
4, 决策智能化
首先是 业务数据化 ,我们进到很多传统行业的时候,发现它本身的数据流程没有数据化,就是这个业务做得好还是不好,没有一套数据体系、指标体系、方法论体系来管理。而业务数据化就是各种大数据技术,数仓、BI等这些技术搅合在一起的过程。
我们看到大量的企业还是用BI,用所谓的Smart BI这些技术去把企业整个的业务指标管理起来。但是从数据角度来看它能做的是什么?是Alert,它可以报警和监控,它可以告诉你哪一个业务出问题了给你报警,更多的是这样。
接下来到第二步,我们叫 应用场景化 ,这里特指数据应用的场景化,就是在完成数据化之后,考虑用什么方法提升这些业务。用大数据的方法,用建模的方法,用机器学习的方法去做应用场景化,比如在营销场景里面,可以提出建议,是否在这样的一个营销活动里面增加预算,是否应该投放这样的人群。
坦率的说这个过程还是基于人工,基于很多的分析师对业务的了解或者是他的经验,中国90%以上的企业还处于这样的阶段包括互联网企业,而能否把自己的业务数据化,数据应用场景化,这是企业需要去面对的问题。
但是从去年下半年到今年,我们发现有一些头部企业走到第三步, 流程自动 化,比如说我们现在服务的一些在零售业的头部企业,有一家做餐饮的企业,他有一个50人的数据团队,这是绝无仅有的,比很多做科技的公司投入都大。这50人的数据科学家,会做很多的数据预测,预测每天卖多少汉堡,卖多少咖啡。大家觉得这个事好像挺不靠谱的,但是实际上经过我们的帮助,它的准确率已经在95%以上,真的能预测出一个门店明天卖多少汉堡。这个过程需要用大量的数据,包括天气、路况、客流、历史交易等等。这个结果对它直接的影响是可以优化第二天排班、优化供应链情况,计算下来一年节省上亿元费用,相当于一个逻辑算法就上亿。这个事情不是美国发生的,是在中国。
第四个就是决策智能化,我们也为企业选址提供服务,因为对线下零售来说,店开在哪就百分之七八十决定了这个家店能不能成功。我们帮客户做选址,它第一个要求我们去预测的是这家店未来三年的收入,它会把历史上三年的数据给我们,但是不告诉我们整个交易情况,我们建模型,建了之后去优化这个模型,先准确的预测历史,然后再预测新店未来三年的收入是多少,这已经自动化了,以前这个企业有200人的选址人员,现在只有20人,这是我们帮他优化的过程。
这几步做完以后还有一些头部企业走到下一步,这个叫效益数字化,就是企业完成自动化之后,就有了很强的数据能力,这时候企业就会想我这个能力能不能开放给别的企业,比如说把它做成一些指数,甚至把它做成智能的APP,提供给我的供应商和我的下游,甚至把这个业务切出来,在产业链中覆盖中小B。当然,这是TD正在做的一个逻辑。
四、数据智能演进的三个阶段
从我们的角度看数据智能的演进分为三个阶段。
第一个阶段是Data到Analysis。 我们有大量数据,然后帮开发者做分析,但是我们发现从数据到分析只是浅层次重复,无法形成闭环和带来效益提升。现在也还有很多企业处于这个阶段。
第二个阶段是Data到Action。 在第一个阶段走不通的情况下,我们尝试着往下一步走,看数据能做什么,能不能优化广告,能不能优化营销。但是我们验证了这步基本不可行,这在国外是可行的,但是在中国不可行,因为中国有太多的不透明,我们在一个在线网络上测试了很多,我们投进去时是对的,但是出来的结果就不行,就是那么大的一个网络,也有很多的不透明的算法,把你数据的算法逻辑都抵消了,这是中国的现状。
所以, 现在越来越多的企业走到第三阶段 ,Data到Data Science,我把数据变成数据模型,证明它在什么地方对商业有价值。因为你比的不是最终效果,比的是过程,对企业来说,这个model比人工好,上了这套东西,以前能做50个产品,现在能做500个,这也是提升。
通过Data到Data Science形成闭环,依赖模型持续提升效果,现在是大家的共识。
五、数据服务价值长期才能显现
时间关系,最后跟大家来解释一下数据回报定律,数据回报定律是指在指数级世界里,数据对企业商业价值的回报都是加速的,我们服务的所有企业都有这个趋势。
第一年我们看不到数据对商业特别明显的回报,这是因为这种回报的比例虽然很大,但是基础太低,而大量企业在第二年,第三年的回报特别明显。
我们很多的客户现在和我们签的全部都是分成协议,他多卖一件衣服、一个汉堡愿意给我付钱,就是因为它们逐步发现,通过数据真的可以帮它每年省上亿费用,或者带来非常可观的回报。
但我也有一点担忧, 现在很多的数据企业太急于求成,对客户承诺说我三个月半年就可以帮你做什么,我可以告诉你,这个很难做到,结果一定是两三年以后才能显现,这就是中国企业做不大的原因。