正在改变科学界的人工智能

人工智能分析人群心理

随着社交媒体的普及,每年都有数以十亿计的用户发表成百上千亿的帖子,这为社会学带来了海量的数据。同时这开创了一个前所未有的机会,使得人工智能可以在大众通讯中寻找意义。在美国宾夕法尼亚大学积极心理学中心,心理学家Martin Seligman博士和20多位同事在一个世界福祉项目中使用机器学习和自然语言来处理和筛选数据,以衡量公众的情绪和身体健康。

这个工作传统上是通过问卷调查来完成的,但是社交媒体上的数据不引人注目,获取成本很低,并且能带来数量级上更大的数据。这些数据非常凌乱,但是人工智能提供了一种强大的分析其中模式的方法。在最近的一项研究中,Seligman博士观察了29000名进行过抑郁症自我评估的Facebook用户的更新。通过其中28000个用户的数据,机器学习算法发现了更新中的用词和抑郁水平的关联,然后根据其它用户的更新成功地预测了他们的抑郁水平。

▲人工智能通过分析社交媒体上的数据预测用户抑郁水平(图片来源:Facebook)

在另一项研究中,这个团队成功地通过分析1.48亿推文预测了县一级的心脏病死亡率,与愤怒和负面关系相关的用词是风险因素。这个预测与传统的通过吸烟、糖尿病等10大风险因素预测的心脏病死亡率相符。研究人员还通过社交媒体预测人格、收入、政治观点,并且研究了医院护理、神秘经历和性格类型等等。他们还根据Twitter更新,创造了一幅精确到县的基于幸福感、抑郁水平、信任感和5个性格特征的地图。

美国得克萨斯大学的社会心理学家James Pennebaker博士表示:“分析语言和心理学的联系正在经历一场革命。”他的研究不仅注重用词,还注意语言风格。比如说,在大学入学考试作文中虚词的用法能够预测成绩,定冠词和介词代表了分析思维因此成绩更好,而代词和副词代表叙事思维因而成绩会差一些。他的研究还发现一部写于1728年的话剧《Double Falsehood》很可能是莎士比亚的作品,因为机器学习算法发现这部作品中的认识复杂度和对于罕见词的使用符合莎士比亚的其它作品。Pennebaker博士表示:“现在我们可以分析你所发表过的任何帖子,以此获得越来越丰富的人的形象。”

在基因组中寻找自闭症的根源

对于遗传学家来说,自闭症是一个棘手的挑战。遗传模式显示它有很强的基因因素,但已知的与自闭症相关的数十种基因变体加在一起只能解释所有病例中的大约20%。寻找其它可能有关的基因变体意味着要在25000个人类基因及其周围DNA片段中寻找线索,这超出了人类研究人员的能力。所以来自美国普林斯顿大学的计算生物学家Olga Troyanskaya博士和纽约市的Simons基金会想到了使用人工智能工具。

纽约基因组中心创始人、洛克菲勒大学医生和科学家Robert Darnell博士表示:“我们作为生物学家对自闭症的基础只能进行有限的研究,当一个科学家只能解决10个问题时,计算机能够解决数万亿的问题,这将改变整个游戏的规则。”

Troyanskaya博士结合数百组不同的数据,这包括了不同人类细胞中活跃的基因、蛋白质相互作用、转录因子结合的部位以及其它关键基因组特征的位置。然后,她的团队利用机器学习算法建立了基因相互作用的地图,并将少数已知自闭症基因和数千个未知基因相比较,他们发现了2500个可能与自闭症有关的基因。这项研究于去年发表在了《Nature Neuroscience》上。

▲人工智能工具找到了数千个与自闭症有关的基因(图片来源:Autism Epicenter)

但是遗传学家最近认识到,基因并不孤立。它们的行为受到其周围数百万非编码碱基的影响,它们和DNA结合蛋白以及其它因子互动。识别那些非编码变体如何对自闭症基因产生影响比找到那些基因更为困难。Troyanskaya团队的研究生Jian Zhou正在利用人工智能解决这个问题。

为了训练这个深度学习程序,Jian Zhou利用了Encyclopediaof DNA Elements和Roadmap Epigenomics这两个项目收集的成千上万个非编码DNA位点影响相邻基因的数据。这个系统学习了那些可以用来评估未知的非编码DNA作用的特征。Jian Zhou和Troyanskaya博士在2015年10月在《Nature Methods》上描述了这个叫做DeepSEA的程序。这个团队正在使用这个程序分析自闭症患者的基因组,希望能够找到与疾病相关的非编码DNA。

美国加利福尼亚大学尔湾分校的计算机学家Xiaohui Xie博士评价DeepSEA为“将深度学习应用到基因组的一个里程碑”。Xie博士同样在利用人工智能分析基因组,他的关注点比自闭症更广泛,他同样希望根据突变的有害程度对它们进行分类。不过他提醒说,在基因组学中,深度学习算法的好坏取决于训练算法的数据。现在人们怀疑这样的系统能否可靠地分析基因组,“但我想将来越来越多的人会接受深度学习”。

神经网络帮助化学合成

有机化学家是反向思考的专家,就像大厨先从一份成品菜的样子开始,回过头去想用什么材料和什么步骤把菜做出来。有机化学家们总是从他们想要制造的分子的最终结构开始思考如何组装它。德国明斯特大学的研究生Marwin Segler说:“你需要合适的成分和一个方法来组装它们。”他和他的同事们正在将人工智能引入他们的“分子厨房”。

他们希望人工智能可以帮助他们应对分子制造过程中的一个关键挑战——从数百个潜在的基本模块和数千种连接它们的化学方法中寻找最合适的方法。

几十年来,一些化学家已经用已知化学反应精心设计了计算机程序,希望能创建一个可以快速选择最可行方案的系统。不过,Segler说,化学可以非常微妙,很难用二进制写下所有的规则。

于是,Segler和他的导师Mark Waller博士(现为上海大学量子与分子结构国际研究中心教授)以及计算机学家Mike Preuss博士一起转向了人工智能。他们设计了一个深度神经网络程序,它并不通过化学反应规则编程,而是从数百万个实例中学习化学反应如何进行。Segler说:“你提供的数据越多,它的表现越好。”随着时间的推移,这个网络学会了如何预测合成过程中某个特定步骤的最佳反应,最终它提出了从头合成的方案。

▲人工智能通过深度学习可以预测化学合成(图片来源:MIT News)

这个三人团队测试了40种不同的目标分子,并与传统的分子设计程序进行了比较。在2个小时内,传统方法提出了合成22.5%的分子的方案,人工智能完成了95%。即将前往伦敦在一家制药企业工作的Segler,希望能用这个方法改进药物的生产过程。

美国斯坦福大学的有机化学家Paul Wender博士认为,现在判断Segler的方法是否有效还为时过早。但同样试图将人工智能应用到有机合成的Wender博士认为这个方法可能会有深远的影响,而且将不仅是合成已知分子,更能寻找新的分子。

Segler表示,电脑不会很快取代有机化学家,因为化学家的能力超出预测反应如何进行。就像GPS导航系统一样,人工智能可能善于寻找一条路线,但它不能自己设计和实现一个完整的合成过程。不过,对于人工智能专家来说,这也是他们的目标之一。

;