看人工智能如何改变科研
人工智能工具正在帮助揭示可能影响自闭症的上千个基因。
图片来源:BSIP SA/ALAMY STOCK PHOTO
寻找新粒子
上世纪80年代末,正当“神经网络”这一术语捕获了公众的想象力时,粒子物理学家开始“玩弄”起人工智能。他们的领域很适合应用人工智能和机器学习算法,因为几乎每项试验均聚焦从复杂粒子探测器获取的不计其数的类似数据中寻找微小的空间模式,而这正是人工智能擅长的事情。“我们花了好几年时间才说服人们,人工智能并不是一种神秘的把戏。”最早拥抱此项技术的首批物理学家之一、美国费米国家加速器实验室研究人员Boaz Klima表示。
粒子物理学家力图使带有巨大能量的亚原子粒子相撞以迸发出独特的新物质微粒,从而理解宇宙的内部运作。例如,2012年,利用全球最大质子对撞机——位于瑞士的大型强子对撞机(LHC)开展研究的团队发现了预期已久的希格斯玻色子。这是一种转瞬即逝的粒子,对于物理学家解释所有其他基本粒子如何获得质量至关重要。
不过,此类奇特粒子并非自带标签。在LHC,几乎约10亿次对撞才出现1个希格斯玻色子。与此同时,它会在十亿分之一皮秒内衰变成诸如光子对等其他粒子。为“重现”希格斯玻色子,物理学家必须认出所有那些更加常见的粒子。然而,典型碰撞中产生的成群的不相关粒子使此项工作变得更加艰难。
费米实验室物理学家Pushpalatha Bhat介绍说,诸如神经网络等算法擅长从背景中筛选信号。在粒子探测器(一般是由各种传感器构成的巨型筒状集合体)中,光子通常在被称为电磁量能器的子系统中创建粒子束。电子和强子也是这样产生的,但它们的束流和光子稍微有些不同。机器学习算法通过发现描述束流的多个变量之间的相关性,将它们区别开来。此类算法还能帮助区分希格斯玻色子衰退产生的光子对。“这是一个公认的大海捞针式的问题。”Bhat表示,“这也是为何我们要从数据中提取尽可能多的信息。”
然而,机器学习并未完全占领这个领域。物理学家仍然主要依靠对基础物理的理解来断定如何搜索数据,以寻找新粒子和现象存在的迹象。不过,劳伦斯伯克利国家实验室计算机专家Paolo Calafiura表示,人工智能可能正变得愈发重要。到2024年,研究人员计划升级LHC,从而使其碰撞率提高10倍。Calafiura介绍说,到那时,机器学习将在应对数据洪流时发挥至关重要的作用。
分析公众情绪
伴随着每年几十亿用户以及数千亿条推特和帖子的产生,社交媒体已将大数据带入社会科学。同时,心理学家Martin Seligman 表示,它还为利用人工智能收集人类传播产生的意义创造了史无前例的机遇。在宾夕法尼亚大学正向心理学中心,Seligman同来自“全球福祉项目”的20多名心理学家、内科医生和计算机专家,利用机器学习和自然语言处理筛选大量数据,以估量公众的情感和身体健康。
传统上,这是通过调查实现的。不过,Seligman表示,社交媒体数据“比较低调”、花费较少,而且获得的数据要高出好几个数量级。虽然此类数据也很散乱,但人工智能提供了一种获取模式的强有力方式。
在一项最新研究中,Seligman和同事分析了2.9万名自我评估患有抑郁症的脸书用户更新的内容。利用来自其中2.8万名用户的数据,机器学习算法发现了更新内容中的词语和抑郁症水平之间的关联。随后,它能仅基于更新的内容,成功估量出其他用户的抑郁症水平。
在另一项研究中,该团队通过分析1.48亿条推特,预测了县级心脏病死亡率。事实证明,同愤怒和负面情绪相关的词语是危险因素。和基于诸如吸烟、糖尿病等10项主要危险因素的预测相比,这项来自社交媒体的预测同实际死亡率匹配得更加紧密。与此同时,研究人员利用社交媒体预测了个性、收入和政治意识形态,并且研究了住院治疗、神秘体验和刻板印象。该团队甚至利用从推特上推断出的福利、抑郁症、信任和五大人格特征,创建了一幅为美国每个县作出标识的地图。
“在分析语言及其同心理学的联系方面,一场革命正在上演。”德克萨斯大学社会心理学家James Pennebaker表示。Pennebaker关注的并非内容,而是风格。他发现,在申请大学入学短文中虚词的使用能预测成绩。冠词和介词象征着分析性思维并且预示了更好的成绩,代词和副词象征着叙事性思维并且预示了较差的成绩。Pennebaker还发现了证据,表明1728年的剧本《双重背叛》的大部分内容可能由莎士比亚撰写。机器学习算法基于诸如认知复杂性和罕见词等因素,将该剧本同莎士比亚的其他作品进行了匹配。“现在,我们可以分析你贴出甚至撰写的任何内容。”Pennebaker表示,结果是“获得了关于人们是什么样子的愈发丰富的画面”。
探寻自闭症根源
对于遗传学家来说,自闭症是一项棘手的挑战。遗传定律表明,它拥有强大的遗传因素。然而,已知在自闭症中起到一定作用的许多基因的变体只能解释约20%的病例。寻找可能影响自闭症的其他变体,需要从关于2.5万个其他人类基因及其周围DNA的数据中搜寻线索。对于人类研究者来说,这是一项艰巨的任务。为此,普林斯顿大学计算生物学家Olga Troyanskaya和纽约西蒙斯基金会谋取了人工智能工具的支持。
Troyanskaya将关于哪些基因在特定人类细胞中活跃、蛋白如何相互作用以及转录因子结合位点和其他关键基因组特征位于哪里的上百个数据集结合在一起。随后,她的团队利用机器学习构建了基因相互作用的地图,并且将已得到确认的较少的自闭症危险基因同上百个涉及自闭症的其他未知基因进行了比对,以寻找它们的相似性。此项研究标记了另外2500个可能同自闭症相关的基因。相关成果在去年发表于《自然—神经科学》杂志。
不过,正如遗传学家最近所意识到的,基因并不是孤立地发挥作用。它们的行为受到上百万个附近非编码碱基的影响。这些非编码碱基同DNA结合蛋白以及其他因素相互作用。确认哪些非编码变体可能影响附近的自闭症基因是一个更加棘手的问题。Troyanskaya的研究生Jian Zhou正在利用人工 智能解决这一难题。
为训练程序(一个深度学习系统),Zhou将其暴露在“DNA 元件百科全书”和“表观基因组学路线图”收集的数据中。这两个项目对上万个非编码DNA位点如何影响附近基因进行了梳理。Zhou利用的系统学习了在评估未知非编码DNA的潜在活性时该寻找哪些特征。
当Zhou和Troyanskaya于2015年10月在《自然—方法学》杂志上描述了这个名为DeepSEA的项目时,加州大学尔湾分校计算机专家Xiaohui Xie将其称为“将深度学习应用于基因组学的里程碑”。目前,该研究团队正通过DeepSEA研究自闭症患者父母的基因组,以期对非编码碱基的影响进行排序。(宗华编译)