Nucleic Acids Res:中科院微生物所马俊才研究员发表大数据平台建设
近日,国际核酸类重要学术期刊《Nucleic Acids Research》杂志在线发表了中科院微生物研究所微生物资源与大数据中心、世界微生物数据中心团队题为“World Data Centre for Microorganisms: an information infrastructure to explore and utilize preserved microbial strains worldwide”的研究论文。微生物资源与大数据中心、世界微生物数据中心主任马俊才为本文通讯作者。
微生物作为最简单的生命体成为生命科学研究不可替代的基本材料, 微生物数据是微生物资源共享和开发的关键环节,数据资源的丰富性、准确性和共享水平决定着整个微生物学领域研究和应用的综合能力。世界微生物数据中心(World data center for microorganisms, WDCM,以下简称WDCM)隶属于国际生命科学联盟(IUBS)下属的世界微生物菌种保藏联合会(WFCC)和联合国教科文组织(UNESCO)下属的国际微生物资源中心(MIRCEN),由世界菌种保藏联盟在上世纪60年代建立,是全球微生物领域最重要的实物资源数据平台,也是我国生命科学领域唯一的一个世界数据中心。
在本研究中,团队以世界微生物数据中心(World data center for microorganisms, WDCM)为平台倡导全球微生物菌种保藏目录(global Catalogue of Microorganisms,GCM)重大微生物数据资源国际合作计划,在为分散于全球各个保藏中心和科学家手中宝贵的微生物资源提供一个全球统一的数据仓库,并以统一数据门户的形式,对全世界科技界和产业界提供微生物菌种资源的信息服务。目前已经有来自美国、法国、德国、荷兰等43个国家和地区的107个国际微生物资源保藏机构正式参加这一计划。
在大数据整合技术研究方面,团队开发了生物资源引用平台系统,利用先进的数据挖掘手段,从全球超过600万已发表的微生物文献、专利、核酸序列和基因组中,进一步提取了微生物资源的后续研究和利用的信息,并开发了参考菌株目录,作为一个跨平台参考目录,整合ISO以及其他国际标准菌种统一编号,推动了全球菌种资源的高标准应用。该数据平台对于微生物实物资源从采集、保藏、跨国转移、学术和商业应用以及利益分享的各个环节都能提供有效的数据支持,为《名古屋议定书》在微生物领域的实施和执行提供最重要的支撑。平台及其相关的指导原则,是国际上第一次形成一套完善的可运行的信息平台方案。WDCM在CBD/NP实施方面的相关工作,也符合我国参与CBD工作的主要方向。
微生物大数据平台目前已经处于稳定的运行和服务阶段,在数据集成和服务机制上,也进行了积极的探索,使得该平台能够有效地在全球范围进行数据资源的集成,并实现可持续发展。同时,WDCM作为一个合作平台,使我国科学家能够在全球的角度,组织和协调各国的相关力量,建立全球性的合作框架,也让中国有机会逐步在微生物资源的开发应用和数据共享方面占领国际微生物研究前沿和主导地位。截至目前,平台的累计访问次数已超过20万次。
原文链接:
World data centre for microorganisms: an information infrastructure to explore and utilize preserved microbial strains worldwide
原文摘要:
The World Data Centre for Microorganisms (WDCM) was established 50 years ago as the data center of the World Federation for Culture Collections (WFCC)—Microbial Resource Center (MIRCEN). WDCM aims to provide integrated information services using big data technology for microbial resource centers and microbiologists all over the world. Here, we provide an overview of WDCM including all of its integrated services. Culture Collections Information Worldwide (CCINFO) provides metadata information on 708 culture collections from 72 countries and regions. Global Catalogue of Microorganism (GCM) gathers strain catalogue information and provides a data retrieval, analysis, and visualization system of microbial resources. Currently, GCM includes >368 000 strains from 103 culture collections in 43 countries and regions. Analyzer of Bioresource Citation (ABC) is a data mining tool extracting strain related publications, patents, nucleotide sequences and genome information from public data sources to form a knowledge base. Reference Strain Catalogue (RSC) maintains a database of strains listed in International Standards Organization (ISO) and other international or regional standards. RSC allocates a unique identifier to strains recommended for use in diagnosis and quality control, and hence serves as a valuable cross-platform reference. WDCM provides free access to all these services atwww.wdcm.org.
作者:马俊才