深圳国家基因库正式发布中国核酸序列归档系统(CNSA),支撑全球科研文章发表
近日,深圳国家基因库重磅发布了中国核酸序列归档系统(China Nucleotide Sequence Archive , CNSA)。中国核酸序列归档系统(CNSA)是一个方便、快捷地在线提交生物研究项目、样本、实验等信息数据的系统,致力于生物测序信息和数据的存储、共享,旨在为全球的研究者提供当前最全面的数据和信息资源,提高研究者访问和使用数据的便捷性和深入性。
据悉,历时13年完成的人类基因组计划,促进了基因组学技术的开发,带来了生物、计算、化学等学科的创新发展,其使人们从分子层面理解生命成为可能,也带来了大数据的挑战。
美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)、日本DNA数据库(DDBJ)这三个世界级数据中心汇集了全球众多科研工作者的生物学研究数据,尤其是跟序列相关的核酸信息数据。而如今,基因已经成为一种战略资源,关系到国家的根本利益和生物安全,谁掌握这些资源,谁就将站在全球生物产业链的顶端。
深圳国家基因库是服务于国家战略的国家级公益性创新科研及产业基础设施建设项目,以对海量生物资源的存、读、写能力为基础,搭建起基因资源挖掘的公益性、开放性、支撑性、引领性服务平台,真正实现基因资源的共有、共为、共享。基于此理念,深圳国家基因库建立了中国核酸序列归档系统(CNSA)。
亮点一:结合国际权威的数据结构标准、满足科研成果的全球共享
结合国际核酸序列数据库(International Nucleotide Sequence Database Collaboration,INSDC)和DataCite标准,CNSA同时接受原始序列和其他支撑数据的递交和归档,实现数据全生命周期——从产生、递交、同步、查询到下载等过程的完整归档,以确保科研成果的完整性。
亮点二:遵循文章发表前的国际数据开放协议,支撑全球科研文章的发表
CNSA遵循Fort Lauderdale Agreement, NHGRIRapid Data Release Policies, Joint Data Archiving Policy, CC0-No RightsReserved等国际数据开放原则和协议,接受来自全球科研的测序研究数据(包括原始数据和其他支撑数据)递交,其数据递交服务可作为文献出版流程的补充,支持早期数据的共享。
亮点三:遵循不同的数据伦理和权限申明
CNSA遵循用户所在国家的《人类遗传资源管理暂行办法》和伦理规范,对用户提交的数据和信息,进行伦理批件和人类遗传资源出入境批件的审编和备份。
亮点四:采用不同颗粒度的安全等级管理
CNSA结合不同的数据类别和处理方式,采用相应的技术和管理措施,确保数据处于对等的安全级别保护。
亮点五:应用高可用的分布式数据归档系
CNSA采用高性能的分布式对象存储进行数据归档,结合独立的高可用备份存储系统,实现数据的安全存储。
亮点六:拥有高效互联的传输带宽和物流网络
CNSA依托深圳国家基因库和华大的高效互联的传输带宽和物流网络,覆盖全球多中心,可协助用户快速递交数据并同步至国际公共数据库。
亮点七:拥有本地化的中文服务,快速反馈,零距离沟通
CNSA提供中英文人工双语服务,可通过电话、邮件等方式联系我们,实现无障碍、零距离沟通。快速使用指南
1、原始数据递交
原始序列是指一次测序产生的全部原始数据。理论上,原始数据是没有经过任何过滤的数据。原始序列数据的递交,CNSA整合了INSDC的数据标准和结构进行数据审编和归档,包括"项目、样本、实验和数据"四个简单步骤(详见图1)。
图1 原始数据递交流程
原始数据文件及元数据信息递交完成后,经后台管理员审核信息无误后,CNSA默认以ENA (European Nucleotide Archive,欧洲核酸档案库)代理(broker)的身份将其同步至ENA公共数据库。当然,CNSA承诺用户可自由选择同步的数据库,包括 NCBI-SRA和DDBJ-DRA 。
2、其他支撑数据递交
其他支撑数据是指除原始数据外的其他数据,此类数据与文章或研究相关,包括但不限于过程和结果数据、分析方法、软件程序、图像文件、音频文件、视频文件、成像文件、电子图表和word文档等。CNSA与Gigascience旗下的GigaDB合作共同归档此类数据,分配DOI,以供科研工作者引用(详见图2)。
图2 其他支撑数据递交流程
3、数据查询检索和下载
CNSA拥有支撑亿级数据的搜索引擎,用户可组合任意的搜索关键词进行搜索,实现数据和信息的秒级响应,并可快速获得下载的数据文件。
中国核酸序列归档系统(CNSA)将支撑全球科研成果的发表,实现对不同研究类型和规模的数据共享,提高科研成果再现性,促进科技的新发现。
(发布:)