科学家用大数据探究行为背后的机理和因果关联
“我们发现,大多数用户在使用同一款手机壁纸软件时,一般浏览到第七页就会退出,这是通过大量的用户浏览时长、翻页数据分析得出的‘七页法则’。因此,如何使用户度过‘审美疲劳’的第七页,继续留在软件中?就是软件开发者需要琢磨的事情了。”近日,在中国计算机学会青年计算机科技论坛举办的社交网络与大数据前沿学术报告会上,中科院计算所副研究员罗平表示。
随着微信、微博、Facebook、Twitter等线上社交平台的普及与广泛应用,用户可以随时随地的在网络上分享内容,进行互动,由此产生了海量的用户数据。用户在社交平台上的行为数据某种程度上构成了真实世界的投影,因此针对社交网络的研究与大数据挖掘拥有广泛的应用场景与深远的现实意义。
目前针对社交网络的研究与数据挖掘还处于相对初级的阶段,很多基础性的问题有待探索,有效的工程方法有待解决,罗平带来的《大数据背景下的行为机理和可解释性挖掘》报告就是对这项工作的尝试。
探究行为背后的机理和因果关联
社交网络分析和研究的范围非常广泛,包含了针对社交网络自身演化规律的研究;针对社交网络结构的分析,关系链挖掘,群组发现等;通过用户数据挖掘形成多维度立体的用户画像;以及与社会学、传播学、行为学、心理学等学科交叉研究分析社会的运行规律等。
社交网络研究拥有非常广泛的应用场景,罗平所从事的就是针对个体用户的精准营销、个性化推荐以及方兴未艾的社交AI(人工智能)研究。
“由于完整的用户行为数据往往被分散式拥有,可供分析的用户行为只能反映某些零散的片段。因此,鉴于行为数据的不确定性和不完备性,我们更有必要探究行为背后的深层机理,并挖掘可解释的行为因果关联。”罗平解释自己的研究领域时说。
“什么是深度学习?就是通过将从输入到输出的复杂映射转化为大规模的非线性实数运算。”罗平介绍说。当前的深度学习方法已成功应用于自然语言建模的多个场景,如机器翻译、智能对话、关系抽取等。
然而,同样是离散型随机变量的序列数据,人类行为受社会、心理、传播等复杂因素的影响,也呈现出更大程度的不确定性。因此,罗平采用了不同于深度学习的分析方法来研究社交网络。
“深度学习并不是适用于所有的场景,在某些分析角度就不具有功效,尤其在语言和行为分析方面,深度学习仍有欠缺。”罗平说。
“语言和行为都属于离散型随机变量的序列数据,但又有本质区别。”罗平介绍说,例如,“你吃午饭了吗”一句话中,即使缺少词语,机器也可以分辨词组意义,而且准确性很高。但是行为的不确定性就非常高,比如购买行为,就很难从用户本次购买物品中推断下次购买需求。
“消费行为是由很多复杂因素决定的,包括心理学、传播学、社会学等各种因素,而且很多消费行为是冲动消费,与之前的行为没有逻辑关联,这就是行为的第一个特点——非常高的不确定性。”罗平说。
与此同时,行为数据还有另一个特点——不完备性。“消费者使用的购物软件可能有很多,当我们在分析行为数据的时候,可能只能获得某一个网站提供的数据,而无法从上帝视角获知全部行为。”罗平说。
他表示,“数据分散在网络的各个角落,我们获知的只是所有数据的一个片段,这给预测行为增加了难度,我们只能在不确定性和不完备的数据上做这些分析,一方面挖掘行为背后的深层机理;另一方面,对线上和线下行为进行联合建模,在概率图模型的框架下挖掘可解释的行为之间的因果关联”。
“七页法则”
通过用户对一款手机壁纸软件的浏览页数和时长、点击次数、收藏张数等数据序列分析,罗平发现,用户浏览到第七页的时候,离开的可能性最大。
是什么决定了用户离开?罗平解释,整个使用过程就是信息累积的过程,当信息累积到某个阈值,用户的信息胃口得到满足,大脑发出终止浏览的指令。罗平要做的,就是用数学的方式刻画出这种看似主观的行为理解。
“用户在互联网上的浏览长度服从逆高斯分布,并通过心理学中的‘阈值模型’解释了用户是否继续浏览的随机决策过程。”罗平解释说。
那么问题来了,提高图片内容和质量可否刺激用户,延长浏览时长?答案是否定的,“数据显示,当用户点击了五张图片之后,翻页概率总会达到峰值,当他点击更多图片之后,翻页概率反而降低了,因此高质量的内容确实能够增大翻页概率,同时也具有过犹不及的效应”。罗平说。
“七页法则”前提下,高质量内容过犹不及,App设计者如何利用这些规律设计内容呢?“我们建议设计者特别注意内容位置的敏感点,在这个敏感点,用户的离开概率会增大数十倍,这里不要放置平淡无奇的内容和令人反感的广告,而是投其所好,推送用户喜欢的内容,把用户吸引住。”罗平说,“不同的App敏感点并不一定都在第七页,但这个位置一定存在”。
“推荐短信的价值能提高30%”
另一项工作中,在对用户线下购买和线上搜索行为进行关联分析时,罗平发现,购买破洞牛仔裤、耳钉的人群,网上搜索的关键词大多与游戏、大学等内容相关,“搜索内容和购买意图关联度确实很大”。罗平说。
虽然网购火爆,但据统计,中国90%的零售业仍然发生在线下。罗平认为,行为分析的意义就在于,可以通过线上搜索得到用户的一些购买意图进而进行线下品牌推荐。
这其中的挑战在于,数据来自很多不同的模态,“我们要建立一个具有解释意义的模型,数据就不能是个黑盒子,要给商家用,还要有推荐理由”。罗平采用概率图模型的方法,将线上搜索和线下行为进行联合建模,用因果关系来推荐。
通过品牌聚类和关键词聚类,我们可以知道,购买过母婴用品的用户,线上还喜欢搜索减肥操和钟汉良的电视剧;购买过户外用品的用户,也是儿童用品的消费主力。“对用户有针对性地推荐商品,每条推荐短信的价值能提高30%。”罗平说。