重庆研究院在稀疏大数据分析方法研究中取得进展

近日,中国科学院重庆绿色智能技术研究院大数据挖掘及应用中心团队在稀疏大数据分析方法研究中取得进展,率先提出“恒定非负的高维稀疏矩阵隐特征分析方法”。该方法能对高维稀疏矩阵这种典型大数据结构进行高效、恒定满足非负条件的隐特征分析,进而完成集簇探测、缺失值预测、趋势分析等知识的发现任务。相关研究成果发表于IEEE Access,并以长文形式被数据挖掘领域顶级会议“IEEE International Conference on Data Mining 2016(IEEE ICDM 2016)*”录用。

高维稀疏矩阵是大数据应用系统产生的典型数据结构,出现场景包括电子商务、社交网络、云服务优选、网络媒体、公共交通、运营商服务等。其频繁出现的主要原因是随着应用系统的规模不断扩大,其所涉及的实体数量不断膨胀,导致:1)实体关系的维度不断提高;2)每个实体所能交互的实体子集在实体全集中占据的比例不断下降。因此,描述实体间关系的数据结构一般具备高维、稀疏的特点,如高维稀疏矩阵(涉及两个实体集合)、高维稀疏张量(涉及三个实体集合)以及高维稀疏超张量(涉及四个及以上的实体集合)。其中,高维稀疏矩阵是最常出现的数据结构。如何对其进行高效的隐特征分析,从而发现有效的模式,进而获取有用的知识,是大数据挖掘与应用领域的热点研究问题。

一般情况下,工业应用产生的数据具备非负性,进行隐特征建模时,需要加入非负约束,使所得模型能更好地表征目标数据。但非负约束会使隐特征分析过程进一步复杂化,这就提高了对优化求解方法的要求。针对该问题,重庆研究院大数据挖掘及应用中心研究员罗辛及其研究团队提出了一种恒定非负的高维稀疏矩阵隐特征分析方法。其主要思想是:1)将隐特征分析通过单特征依赖的建模形式,从目标高维稀疏矩阵转移到其已知数据集合上,降低隐特征模型的空间和时间复杂度;2)引入单特征依赖、恒定非负的非线性函数,对非负约束的优化过程进行松弛,将优化决策过程与输出隐特征分离,使优化决策参数不再受非负约束,从而输出隐特征恒定非负;3)参数优化过程与通用优化方法兼容。实验结果表明,应用该方法构造的隐特征模型能恒定输出非负的隐特征,对比现有非负预测模型,算法实现难度明显降低,且能高效处理如社区发现和缺失值预测等知识发现任务。

上述研究内容获得国家自然科学基金项目和中科院“百人计划”项目支持。

相关研究成果均已发表:

[1] Xin Luo, Mengchu Zhou, Mingsheng Shang, Shuai Li, and Yunni Xia. A Novel Approach to Extracting Non-negative Latent Factors from Big Sparse Matrices [J]. IEEE Access, 2016, 4: 2649-2655.

[2] Xin Luo, Mingsheng Shang, and Shuai Li. Efficient Extraction of Non-negative Latent Factors from High-dimensional and Sparse Matrices in Industrial Applications [C]. IEEE International Conference on Data Mining 2016, Accepted.

[3] XinLuo, Mengchu Zhou, Yunni Xia, and Qingsheng Zhu. An Incremental-and-Static-Combined Scheme for Matrix-Factorization-Based Collaborative Filtering[J]. IEEE Trans. on Automation Science and Engineering, 2016, 13(1):333-343.

[4] Xin Luo, Mengchu Zhou, Shuai Li, Zhuhong You, Yunni Xia, and Qingsheng Zhu. A Non-negative Latent Factor Model for Large-scale Sparse Matrices in Recommender Systems via Alternating Direction Method[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(3):524-537.




;