聯(lián)系人:北京星越天成科技有限公司
聯(lián)系電話:010-62416955

公司新聞

北京基因組所開發(fā)國際**基因組序列變異庫

    近日,中國科學(xué)院北京基因組研究所生命與健康大數(shù)據(jù)中心開發(fā)了國際**、國內(nèi)頭個規(guī)模*大的基因組序列變異庫——GVM(Genome Variation Map)。該庫基于人工審編整合了多個物種的大量基因組序列單核苷酸多態(tài)位點和小的插入與刪除變異信息,是基因組序列變異信息匯交、管理與檢索的資源庫。研究成果以Genome Variation Map: a data repository of genome variations in BIG Data Center為題,在線發(fā)表在Nucleic Acids Research上。

    基因組序列變異是基因組DNA水平發(fā)生的可遺傳變異,是生物多樣性的基礎(chǔ),是物種進化、分子育種、優(yōu)良性狀選育、人類**等研究*為寶貴的遺傳資源。近年來,隨著測序技術(shù)發(fā)展,越來越多物種的基因組被精細(xì)解析;物種內(nèi)遺傳多態(tài)變異位點也通過大規(guī)模的群體測序獲得,并廣泛應(yīng)用于復(fù)雜性狀的關(guān)聯(lián)解析。國際兩大數(shù)據(jù)中心NCBI和EBI旗下的dbSNP和EVA是主要的基因組序列變異資源庫。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar兩大數(shù)據(jù)庫停止接收非人物種的SNP提交信息,自2017年11月1日起停止非人物種的SNP在線查詢與提交。這對基于序列變異研究的科研人員造成了不便。

    為此,GVM作為生命與健康大數(shù)據(jù)中心的核心數(shù)據(jù)資源庫之一,搜集了以二代測序和芯片技術(shù)為主要檢測手段的全基因組序列變異檢測的原始數(shù)據(jù),通過標(biāo)準(zhǔn)化的變異位點鑒定與注釋,獲得包括人、畜牧動物、主要農(nóng)作物和其他資源物種在內(nèi)的19個物種共約50億的變異信息,8,884個個體的基因型數(shù)據(jù),并通過人工審編收錄了13,262條高質(zhì)量非人物種的基因型與表型知識數(shù)據(jù),整合了180,911條人變異位點的知識信息。其中,大熊貓、虎鯨、毛竹、橡膠、小麥?zhǔn)荊VM數(shù)據(jù)庫所特有的物種。

    GVM開發(fā)了友好的數(shù)據(jù)提交、瀏覽、搜索和可視化功能。用戶可通過基因組位置、變異影響、基因名稱和基因功能等檢索變異位點信息,并下載數(shù)據(jù);可通過ftp服務(wù)下載VCF和FASTA文件格式的全基因變異信息;可在線或離線方式向系統(tǒng)提交數(shù)據(jù),這方便了科研人員的數(shù)據(jù)共享。

    研究工作得到了中科院戰(zhàn)略性先導(dǎo)科技專項、中科院國際大科學(xué)計劃、國家科技攻關(guān)計劃、國家高技術(shù)研究發(fā)展計劃(863計劃)、國家自然基金項目、中科院百人計劃、中科院青年**促進會等的資助。

    論文標(biāo)題:Genome Variation Map: a data repository of genome variations in BIG Data Center

京公網(wǎng)安備 11010602006204號