凭基因测长相?
一阵疾风骤雨般的批评落到了基因测序先驱Craig Venter的一篇论文上,该文章宣布可以通过DNA预测人们的生理特征。但评审人员,甚至是该文章的一名共同作者却称,它过于夸大利用一个人的基因辨别个人特征的能力,可能会引发对基因隐私的不必要担忧。
在这篇9月5日发表于美国《国家科学院院刊》(PNAS)的文章中,Venter及其位于加州旧金山人类长寿公司(HLI)的同事测量了1061名不同年龄和民族背景的参试者的全基因组。他们利用参试者的基因数据及其面孔的高质量三维照片,采用人工智能方法,在DNA序列中寻找叫作SNPs的微小差异,这些差异与诸如颧骨高度等面部特征存在关联。该团队还寻找了与一个人的身高、体重、年龄、声音特征和皮肤颜色等相关联因素的SNPs。
该方法可在74%的情况下正确辨别出从HLI的数据库中随机选择的一组10人的个体特征。根据该文章,这些发现表明,执法机构、科学家和其他应用人类基因组的人应该审慎地保护基因组数据,以避免个人仅仅通过其DNA被辨识出来。“HLI研究人员的一个核心观点是,在公开可获得的数据库中,并没有真正可以消除个人身份和完全隐私的东西。”HLI在一份声明中说。
但其他分析过这篇文章的遗传学家则说,在他们看来,这一观点过于夸大。“我认为这篇文章并没有提高那些风险,因为他们并没有证明根据DNA识别一个人的任何能力。”宾夕法尼亚州立大学帕克分校人类学家Mark Shriver说。在一个随机选择的10人组中,他说,特别是在类似HLI的小而多样化的数据集中选择的一个小组,仅知道年龄、性别和种族等信息就能够排除绝大多数人。
为了证明这一点,纽约哥伦比亚大学计算生物学家Yaniv Erlich检查了HLI文章中的年龄、性别和种族数据。在9月份发表于预印本服务器bioRxiv的一项研究中,他计算认为,仅知道这3个特征就足以在75%的情况下在HLI的数据集中辨识出10人组中的某个人。Erlich表示,而且根本没有必要知道这些人基因组的任何信息。此外,他表示,HLI的SNPs面部结构重建并不是非常具体,他们倾向于将一个人的个人特征看得和任何人的性别与种族差不多。
在发表于PNAS之前,该文章曾被递交到《科学》,该期刊评审过该文章的审稿人Shriver说。他表示,HLI的真实数据是合理的,他对该团队通过测量染色体终端(会随着时间发展而变短)决定年龄的新方法印象非常深刻。但他表示,该文章并未像其主张的那样,证明个体特征能够通过DNA来识别。“我认为它完全歪曲了他们所做的和他们所发现的。”他说。
HLI称,该文章已陈述利用了多个参数,而个人面部特征仅是其一,基于1000多个基因组的工作来识别一个人的特征是可能的。“它预示这样的预测将会更加精准。”HLI发言人Heather Kowalski说。HLI表示,它坚持自己的方法论,不过同时承认样本集确实规模较小。该公司在9月11日对Erlich的文章作了回应。
Shriver说,他和Erlich在《科学》论文评审中向研究作者指明了他们的担心。Shriver和Erlich均表示,该期刊最终拒绝了这一稿件。(《科学》并未对未发表的研究做过评论)该文章随后被提交给PNAS,并让像Venter一样的一位美国国家科学、工程和医学院成员选择审稿人。其中两位审稿人是信息隐私专家,另外一位是一名生物伦理学家。
PNAS确认,Venter选择了该研究的所有3位审稿人。HLI拒绝对PNAS就该文章的评审过程做出评论。
该论文共同作者、现在新加坡苹果公司工作的计算生物学家Jason Piper同意,该文章完全不恰当地代表了他和其他共同作者所做出的发现。Piper补充说,他和该公司签订的合同免去了文章被递交时让他批准该文章初稿的权利,并让HLI提供该公司认为适当的数据。作为回应,HLI确认“作者有机会评审并对文章做出评论”。
Piper随后在推特网上痛批该文章,并表示在他看来,HLI在鼓励有限制地获取DNA数据库时有着潜在的利益冲突。HLI作为一家营利性公司,在设法建立世界上最大的人类基因组信息数据库。
“我认为基因隐私非常重要,但这里采取的方法却是错误的。”Piper说,“为了从基因组中获得更多信息,人们不得不分享。”他说,一个更加有用的途径是找到一个让基因组数据公开但却不允许识别个人的方法。
作为对该论文批评声音的回应,HLI公司在一份声明中表示:“HLI支持保护基因组数据和提升数据交换的现代解决方法。”它补充称,该文章旨在引起对如何共享遗传信息且同时保护个人隐私的讨论。
尽管如此,Erlich依然担心Venter的身份依然让该文章在政策制定者眼中有了更多的分量,使他们对DNA隐私变得过分关注。“现在的新规则和管理制度正是基于类似的文章。”他说,“当我们在应对隐私风险时,获得正确的事实非常重要。”