21小时47分12秒,千人基因组分析达成!
此次“千人基因组”项目,使用阿里云的计算、存储、网络等多种产品,处理了1000份人类全外显子组数据,总数据量达2TB。整个分析全程无人值守,无命令行操作,仅仅点击四次鼠标就启动了11000多项分析任务,并在BGI Online平台特有的JOB GUARDING技术保障下达到了100%的成功率。
目前使用普通节点分析一例全外显子数据需要约2-4小时,单节点串行分析1000例数据,累积需要100天以上的计算时间。使用华大基因自建的深圳高性能计算中心,也需要约4-7天。与阿里云的强强联合,拓宽了华大基因计算的边界,大大缩短了分析所用的时间,未来也将能支撑更大规模的基因大数据计算任务。
此次千人基因组分析的完成,是继去年10月ICG会议上,华大基因、阿里云、英特尔三巨头宣布启动精准医疗开放云平台共建工作之后的又一重要成果。强强联合的持续创新,将为公众提供更精准、高效的医疗健康服务和更为个性化的优质诊疗体验。使用内资云服务器存储和分析敏感的基因数据,也更加符合我国《人类遗传资源管理条例》的规范。
中华医学会银屑病专业委员会主任兼首席科学家,安徽医科大学张学军教授表示,银屑病项目是国际上至今为止最大的基于全外显子测序的复杂疾病科研项目,安医团队基于该数据集发表或接受发表了三篇Nature子刊系列高水平论文,代表了我国复杂疾病基因组外显子研究的最高水平,是中国人群基因数据研究的典范。此次能在24小时内完成1000例样本的数据分析,为整个十三五期间精准医学专项中大人群队列研究的开展奠定了坚实的基础,将有助于加快复杂疾病研究的进程。
华大基因股份有限公司总裁尹烨表示,此项目使用了BGI Online生物信息工程师搭建的业界通用的BWA+GATK分析流程。从2TB的原始FASTQ文件开始,经过海量的密集计算,生成了约5GB的精确基因变异VCF文件,凸显了华大基因在基因测序和生物信息领域的深厚积淀,为大规模、短时间、高精度的基因组数据分析提供了可行、高效的解决方案。
阿里云总裁胡晓明表示,24小时内完成1000例基因外显子测序,是基因测序和精准医疗发展历史上的一个里程碑。阿里云提供全球顶尖的计算能力,生物技术BT和数据技术DT的融合将加速基因测序成为普惠服务的过程,给基因行业带来更大的市场想象空间。阿里云将进一步与华大基因更紧密合作,在基因测序计算模式上不断优化,早日实现24小时内完成对个人全基因组测序和解读,并提供精准医疗服务的目标,用公共计算解读生命奥秘。
此次目标的达成并不是探索的极限,在一周前于深圳举行的GCTA风云际会——暨基因组云计算技术开发者大会上,华大基因、阿里云、英特尔、百度开放云、华为、聚道科技、微基因等机构共同发起了“风云挑战赛”,已经发布了数道极具挑战性的基因数据分析问题。期待更多基因达人、数据达人共同参与,达成更多挑战!