PNAS:改善大数据集分析的准确性
发表日期:2014-03-26 12:37AM 阅览次数:
日前,来自哈佛医学院等机构的研究人员发现,整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。
对大数据集的自动分析可能识别出数据的模式,但是无法评估发现的模式的显著性,这可能导致无意义的结果。
研究人员发展了一种数据分析方法,它包括了一个交叉验证步骤,从而识别出最显著的模式,这种方法称为通过准确性最大化的知识发现(KODAMA)。一个迭代过程评估了对数据的可能的分类,从而对尽可能多的数据点进行归类,并且通过合并类似的数据类,削减可能的数据类的数量。最后,定义了一个相异度矩阵从而评估数据点之间的关系。
研究人员把通过准确性最大化的知识发现(KODAMA)应用到了几个数据集上,包括淋巴瘤遗传学、代谢组学和上溯到 1900 年的美国国情咨文的语言学特征。
对于国情咨文,研究人员表示通过准确性最大化的知识发现(KODAMA)揭示出了在罗纳德•里根总统任期期间的一种转变,诸如“劳动”、“生产”和“开支”等词汇的频率减少,而诸如“父母”、“子女”和“改革”等词汇的频率增加。
研究人员表示,这些结果提示通过准确性最大化的知识发现(KODAMA)可能有能力从有噪声或复杂的数据集中提取出有意义的模式。
原文检索:
Stefano Cacciatore, Claudio Luchinat, and Leonardo Tenori. Knowledge discovery by accuracy maximization. PNAS, March 24, 2014; doi:10.1073/pnas.1220873111