信息泄露?人为修饰数据增加隐私安全
基因测序后的数据被收录到一个大的集合,形成数据库。科学家能够通过这些数据库筛查疾病相关基因、分析患者生病概率、解析战胜疾病的关键靶点……但是这些涉及个人DNA信息的数据库却面临着隐私泄露的安全隐患。如何确保数据安全呢?MIT的科学家们想出了对策。
随着基因测序技术的更迭,大型基因组数据库越来越普及且多样化,它们是科学家筛查疾病相关基因突变的有力武器。但是,这些记载了众多患者DNA信息的数据库却面临着隐私泄露的风险。2013年一项研究明确揭示,黑客可以入侵基因信息库,从而非法获取甚至于暴露他人的基因组数据。
为了解决数据泄露的隐患,麻省理工学院(MIT)计算机学家Bonnie Berger 和Sean Simmons提出新策略,利用差分隐私(differential privacy,DP)技术保护基因组数据库。
差分隐私是什么?
差分隐私是统计数据库安全防范的典型策略,广泛应用于隐私保护数据发布、挖掘等领域。它的工作原理,简单点讲类似于“欲盖弥彰”,不过是为了做好事。
Berger和Simmons团队对数据库进行一定程度的修改(随机变化、数据噪声等),在不影响总体输出的前提下对个体的信息进行“掩饰”,反馈出带有“错误”的结果,最终达到保护隐私的目的。相关研究成果发表于《Cell Systems》期刊。
这一系统计算了研究人员需要的数据,例如一个遗传变异引发特定疾病的概率。随后,他们通过算法在结果中加以随机变化,使得输出的数据存在错误。例如,输入“与某一疾病最有关联的5大突变基因”的查询指令,系统可能输出的结果其实是前4个基因以及第6或者7的突变基因。
范德比尔特大学的计算机科学家Bradley Malin解释说:“人为添加数据噪声,这与数据本身存在的噪声并不相同。某种程度上,这种添加噪声的修改是可靠的。美国人口调查局、劳工部的数据库已经添加噪声多年。”
目标:最大化查询准确率、最小化隐私泄露
涉及个人隐私的数据库采用DP技术,是否会影响其信息?研究人员表示,只要数据库包含的信息足够大(至少含有上千人的数据),DP系统就不会影响数据的即时搜索。
Simmons和Berger表示,即便输出的结果含有噪音,但是它仍然可以解答一些针对性的问题。如果研究人员分析一个小数据集合,发现与某一疾病有关的遗传变异,系统能够允许他们访问一个更大的数据库去验证这种关联性。它还可以让研究人员在投入全部时间完全访问数据库之前,提前预览它以确定该数据库的有用性。
存在局限
哥伦比亚大学的计算生物学家Yaniv Erlich认为,这是一项非常有意义的研究。但是,从实用角度考虑,他并不确定它可以被采用,对此他提出了两个顾虑:
首先,系统限制。研究人员需要的是筛查前10或者前100个与疾病相关的基因变异,并不是前5个。
其次,人们并不喜欢在数据中添加噪音,因为这会增加信息生成的工作量。噪音问题可能也会干扰临床决策。
但是,Simmons试图改善系统,确保隐私保护的前提下降低噪音的添加量。Berger正通过与Broad研究所合作找到降低隐私风险的方法,他们的终极目标是让数据库尽可能地被广泛使用。
参考文献:
Anna Nowogrodzki.Spiking genomic databases with misinformation could protect patient privacy.Nature doi:10.1038/nature.2016.20407.
本文来源于:生物探索
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ