2025 年 4 月 4 日起,美國(guó)國(guó)立衛(wèi)生研究院(NIH)將正式對(duì)包括中國(guó)在內(nèi)的多個(gè)受關(guān)注國(guó)家實(shí)施數(shù)據(jù)訪問(wèn)限制。NIH 主任辦公室已于 4 月 2 日在官網(wǎng)發(fā)布《實(shí)施更新:增強(qiáng) NIH 受控訪問(wèn)數(shù)據(jù)的安全措施》文件,明確禁止位于中國(guó)、俄羅斯、伊朗等受關(guān)注國(guó)家的機(jī)構(gòu)訪問(wèn) NIH 的受控?cái)?shù)據(jù)存儲(chǔ)庫(kù)及相關(guān)資料。
例如,NCBI 等國(guó)際知名數(shù)據(jù)庫(kù)的突然「斷供」,讓廣大科研工作者措手不及,仿佛一夜之間失去了重要的研究工具。

圖片來(lái)源:NIH 官網(wǎng)
被禁用的國(guó)外數(shù)據(jù)庫(kù)
NCBI ——作為 NIH 下屬的數(shù)據(jù)庫(kù)中心,負(fù)責(zé)維護(hù) GenBank(全球最大的公共 DNA 序列數(shù)據(jù)庫(kù),存儲(chǔ)著數(shù)百萬(wàn)物種的基因數(shù)據(jù))、PubMed(收錄超過(guò) 3500 萬(wàn)篇生物醫(yī)學(xué)文獻(xiàn)摘要)、dbGaP(基因型和表型數(shù)據(jù)庫(kù))、SRA(序列讀取存檔)、ClinVar(記錄基因變異與疾病關(guān)聯(lián)的臨床數(shù)據(jù)庫(kù))、Protein(存儲(chǔ)蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù))等重要生物醫(yī)學(xué)數(shù)據(jù)庫(kù),可以說(shuō)是無(wú)數(shù)科研人的數(shù)據(jù)「糧倉(cāng)」。

圖片來(lái)源:NCBI 官網(wǎng)
GenBank 數(shù)據(jù)庫(kù)——作為 NCBI 精心打造并維護(hù)的一級(jí)核酸序列數(shù)據(jù)庫(kù),匯聚并詳盡注釋了全球所有公開(kāi)的核酸及蛋白序列信息。
其豐富數(shù)據(jù)源自全球科研工作者直接向 DNA 序列數(shù)據(jù)庫(kù)的積極貢獻(xiàn),無(wú)論是作為研究論文的重要組成,還是直接公開(kāi)的序列數(shù)據(jù),GenBank 都為其提供了堅(jiān)實(shí)的存儲(chǔ)與分享的平臺(tái)。
GenBank 數(shù)據(jù)庫(kù)的禁用對(duì)科研工作帶來(lái)了多方面的挑戰(zhàn),中國(guó)科研人員將無(wú)法直接訪問(wèn) GenBank 數(shù)據(jù)庫(kù)中的受控?cái)?shù)據(jù),包括人類(lèi)基因組數(shù)據(jù)、健康記錄等敏感信息。
這也將嚴(yán)重影響相關(guān)領(lǐng)域的研究進(jìn)展,尤其是在精準(zhǔn)醫(yī)學(xué)、遺傳學(xué)等領(lǐng)域。

圖片來(lái)源:GenBank 官網(wǎng)
dbGaP 數(shù)據(jù)庫(kù)——作為人類(lèi)基因型-表型數(shù)據(jù)庫(kù),存儲(chǔ)著全球最全面的人類(lèi)基因組與表型關(guān)聯(lián)數(shù)據(jù),覆蓋癌癥、罕見(jiàn)病等研究領(lǐng)域,中國(guó)約有 75% 的機(jī)制癌癥研究依賴于此平臺(tái)。
dbGaP 數(shù)據(jù)庫(kù)的禁用將使得中國(guó)科研人員無(wú)法直接訪問(wèn) dbGaP 數(shù)據(jù)庫(kù)中的受控?cái)?shù)據(jù),包括人類(lèi)基因型與表型數(shù)據(jù)、疾病研究數(shù)據(jù)等敏感信息。
這將嚴(yán)重影響相關(guān)領(lǐng)域的研究進(jìn)展,尤其是在遺傳學(xué)、癌癥研究等領(lǐng)域。

圖片來(lái)源:dbGaP 官網(wǎng)
ClinVar 數(shù)據(jù)庫(kù)——作為免費(fèi)的公共數(shù)據(jù)庫(kù),主要包含了人類(lèi)遺傳變異及其與疾病的關(guān)系,全球有 2800 多個(gè)組織提交了 300 多萬(wàn)種變異。
該數(shù)據(jù)庫(kù)此前進(jìn)行了更新,包含三種分類(lèi)類(lèi)型:種系變異、致癌性和體細(xì)胞變異的臨床影響。
ClinVar 數(shù)據(jù)庫(kù)被廣泛運(yùn)用于臨床遺傳學(xué)檢測(cè)實(shí)驗(yàn)室、研究機(jī)構(gòu)、專(zhuān)家組以及其他負(fù)責(zé)變異臨床意義分類(lèi)的人員。尤為關(guān)鍵的是,該平臺(tái)為臨床遺傳學(xué)檢測(cè)實(shí)驗(yàn)室搭建了數(shù)據(jù)共享的橋梁,使得原本可能永不公開(kāi)的寶貴信息得以共享和傳播。
ClinVar 數(shù)據(jù)庫(kù)被禁用之后,醫(yī)生可能無(wú)法獲取這些關(guān)鍵數(shù)據(jù),影響疾病的診斷和治療方案的制定,進(jìn)而影響患者的治療效果和生活質(zhì)量。
同時(shí),由于無(wú)法獲取關(guān)鍵數(shù)據(jù),一些新藥研發(fā)項(xiàng)目可能被迫延遲,導(dǎo)致預(yù)計(jì)損失增加。例如,藥明康德的新藥研發(fā)管線中,多個(gè)項(xiàng)目因無(wú)法獲取 ClinVar 數(shù)據(jù)而延遲,預(yù)計(jì)損失超過(guò) 20 億元。

圖片來(lái)源:ClinVar 官網(wǎng)
進(jìn)行替代的國(guó)產(chǎn)數(shù)據(jù)庫(kù)
面對(duì)如此多的數(shù)據(jù)庫(kù)被禁用,應(yīng)該如何破局?其實(shí),國(guó)家基因庫(kù)已早有準(zhǔn)備!中國(guó)在生物信息數(shù)據(jù)領(lǐng)域打造了自主可控的數(shù)據(jù)資源共享平臺(tái) —— 國(guó)家基因庫(kù)生命大數(shù)據(jù)平臺(tái)(CNGBdb),為科研人員提供了堅(jiān)實(shí)的數(shù)據(jù)支撐。以 CNGBdb 為代表的一批國(guó)產(chǎn)數(shù)據(jù)庫(kù)與平臺(tái)在成果發(fā)表和數(shù)據(jù)資源自主性方面均取得了顯著突破。
接下來(lái),學(xué)霸君就帶大家認(rèn)識(shí)更多的國(guó)產(chǎn)數(shù)據(jù)庫(kù),為大家提供更多可替代性方案。

圖片來(lái)源:CNGBdb 官網(wǎng)
?CNGB 數(shù)據(jù)庫(kù)
https://db.cngb.org
中國(guó)國(guó)家基因庫(kù) CNGB 作為我國(guó)自主研發(fā)且可控的公共核酸序列數(shù)據(jù)庫(kù),為數(shù)據(jù)所有者提供了一個(gè)平臺(tái),用以歸檔和公開(kāi)共享各類(lèi)數(shù)據(jù),包括原始數(shù)據(jù)(如 fastq/bam 格式)、組裝數(shù)據(jù)(fasta 格式)、變異數(shù)據(jù)、代謝數(shù)據(jù)、單細(xì)胞數(shù)據(jù)以及時(shí)空組數(shù)據(jù)等。

圖片來(lái)源:CNGB 官網(wǎng)
此外,相關(guān)研究成果和數(shù)據(jù)也可以通過(guò)國(guó)家基因庫(kù)序列歸檔系統(tǒng) CNSA 進(jìn)行上傳與歸檔。
目前,CNSA 已經(jīng)有近 18000TB 的數(shù)據(jù)總量!

圖片來(lái)源:CNSA 官網(wǎng)
該數(shù)據(jù)庫(kù)已獲得 CoreTrustSeal 全球核心可信存儲(chǔ)庫(kù)認(rèn)證、FAIRsharing 國(guó)際認(rèn)證,并被國(guó)際科研數(shù)據(jù)倉(cāng)儲(chǔ)目錄 re3data 收錄。
此外,CNGB 支持向 Elsevier、Wiley、Taylor & Francis、Oxford、Cell Press、Science 等多個(gè)國(guó)際知名出版社和期刊系列投稿發(fā)文,所有提交至 CNGB 的數(shù)據(jù)均會(huì)進(jìn)行 DOI 標(biāo)識(shí)。
值得一提的是,CNGB 還成為國(guó)際科學(xué)理事會(huì)(ISC)世界數(shù)據(jù)系統(tǒng)(WDS)在生物信息領(lǐng)域的首個(gè)正式會(huì)員。
?NGDC 數(shù)據(jù)庫(kù)
https://ngdc.cncb.ac.cn
國(guó)家基因組科學(xué)數(shù)據(jù)中心 NGDC 數(shù)據(jù)庫(kù),于 2019 年 6 月 5 日經(jīng)科技部、財(cái)政部通知公布,由鮑一明研究員作為學(xué)術(shù)帶頭人。
以中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)作為依托單位,聯(lián)合中國(guó)科學(xué)院生物物理研究所和中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所共同建設(shè)。
旨在通過(guò)建立生命健康組學(xué)大數(shù)據(jù)儲(chǔ)存、整合與挖掘分析研究體系,研發(fā)生物多樣性與健康大數(shù)據(jù)匯交、應(yīng)用與共享平臺(tái),發(fā)展大數(shù)據(jù)系統(tǒng)解析與轉(zhuǎn)化應(yīng)用的新技術(shù)和新方法,建設(shè)支撐我國(guó)生命科學(xué)發(fā)展、國(guó)際知名的基因組科學(xué)數(shù)據(jù)中心。

圖片來(lái)源:NGDC 官網(wǎng)
目前,NGDC 包括了基因組和變異、基因表達(dá)、非編碼 RNA、表觀基因組等多種類(lèi)型的數(shù)據(jù)資源,共計(jì)歸檔數(shù)據(jù) 69.9PB,服務(wù)用戶超過(guò) 5822 萬(wàn)。
其中,單是已產(chǎn)生腫瘤基因診斷數(shù)據(jù)就有約 160TB,腫瘤基因研究相關(guān)測(cè)序數(shù)據(jù)約為 1PB!在愈發(fā)重視數(shù)據(jù)安全的當(dāng)下,大家在進(jìn)行科研數(shù)據(jù)發(fā)表的時(shí)候,建議可以將 NGDC 作為上傳測(cè)序數(shù)據(jù)的首選!

圖片來(lái)源:NGDC 官網(wǎng)
?CHARLS 數(shù)據(jù)庫(kù)
https://charls.pku.edu.cn
中國(guó)健康與養(yǎng)老追蹤調(diào)查 CHARLS 數(shù)據(jù)庫(kù)由北京大學(xué)國(guó)家發(fā)展與研究院與北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心共同發(fā)起。
旨在收集一套代表中國(guó) 45 歲及以上中老年人家庭和個(gè)人的高質(zhì)量微觀數(shù)據(jù),用以分析我國(guó)人口老齡化問(wèn)題,推動(dòng)老齡化問(wèn)題的跨學(xué)科研究的調(diào)查。

圖片來(lái)源:CHARLS 官網(wǎng)
據(jù)官方統(tǒng)計(jì),截至 2023 年 10 月底,已有超 8.8 萬(wàn)名用戶注冊(cè)并下載了數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
基于 CHARLS 的出版物也在迅速增加,截至 2023 年 9 月底,以 CHARLS 數(shù)據(jù)為基礎(chǔ)發(fā)表的論文 4,587 篇,其中英文期刊論文 2,079 篇,中文期刊論文 1,639 篇,學(xué)位論文 697 篇。
最近,來(lái)自北京大學(xué)等聯(lián)合團(tuán)隊(duì)就基于 CHARLS 數(shù)據(jù)庫(kù),調(diào)查了抗高血壓藥物的依從性、社會(huì)經(jīng)濟(jì)地位和認(rèn)知衰老之間的關(guān)聯(lián),研究成果成功發(fā)表在中國(guó)科學(xué)院醫(yī)學(xué)一區(qū) TOP 期刊《BMC Medicine》!

圖片來(lái)源:BMC Medicine
?CHNS 數(shù)據(jù)庫(kù)
https://www.cpc.unc.edu/projects/china
中國(guó)健康與營(yíng)養(yǎng)調(diào)查數(shù)據(jù)庫(kù) CHNS 是由美國(guó)北卡羅來(lái)納大學(xué)卡羅來(lái)納人口中心與中國(guó)疾病預(yù)防控制中心營(yíng)養(yǎng)與健康所(原國(guó)家食品安全與營(yíng)養(yǎng)所)合作開(kāi)展的持續(xù)性開(kāi)放隊(duì)列。
旨在評(píng)估健康信息、營(yíng)養(yǎng)及計(jì)劃生育政策的效果,并探究我國(guó)社會(huì)經(jīng)濟(jì)社會(huì)轉(zhuǎn)型對(duì)人口健康與營(yíng)養(yǎng)狀況的影響。通過(guò)追蹤社區(qū)組織、項(xiàng)目以及家庭與個(gè)人經(jīng)濟(jì)、人口和社會(huì)因素的變化,研究人員能夠衡量各種因素對(duì)營(yíng)養(yǎng)健康行為及結(jié)果的動(dòng)態(tài)影響。

圖片來(lái)源:CHNS 官網(wǎng)
CHNS 調(diào)查由一個(gè)國(guó)際研究團(tuán)隊(duì)進(jìn)行,他們的背景包括營(yíng)養(yǎng)學(xué)、公共衛(wèi)生、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、中國(guó)研究和人口學(xué)。通過(guò)采用多階段隨機(jī)聚類(lèi)過(guò)程,抽取了 15 個(gè)省市的約 7200 戶家庭和 30000 多人的樣本,這些家庭在地理、經(jīng)濟(jì)發(fā)展、公共資源和健康指標(biāo)方面差異很大。
調(diào)查的內(nèi)容涉及健康學(xué)、營(yíng)養(yǎng)學(xué)、社會(huì)學(xué)、人口學(xué)、經(jīng)濟(jì)學(xué)、公共政策等多個(gè)學(xué)科,數(shù)據(jù)內(nèi)容包括社區(qū)調(diào)查、家庭戶調(diào)查、個(gè)人調(diào)查、健康調(diào)查、營(yíng)養(yǎng)和體質(zhì)測(cè)驗(yàn)等。CHNS 數(shù)據(jù)庫(kù)的創(chuàng)新性較高,適用于多種醫(yī)學(xué)領(lǐng)域研究,如健康與食物結(jié)構(gòu)、吸煙影響、疾病趨勢(shì)等。
此前,來(lái)自浙江大學(xué)的研究團(tuán)隊(duì)基于 CHNS 數(shù)據(jù)庫(kù),探究了中國(guó)中老年人群中植物性飲食(PBD)和地球健康飲食(PHD)的環(huán)境負(fù)擔(dān)與死亡風(fēng)險(xiǎn)關(guān)系,研究成果成功發(fā)表在中國(guó)科學(xué)院醫(yī)學(xué)一區(qū) TOP 期刊《Lancet Planet Health》!

圖片來(lái)源:Lancet Planet Health
?CFPS 數(shù)據(jù)庫(kù)
https://cfpsdata.pku.edu.cn
中國(guó)家庭追蹤調(diào)查(CFPS)數(shù)據(jù)庫(kù)是由北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心(ISSS)實(shí)施調(diào)查,通過(guò)收集個(gè)體、家庭、社區(qū)等方面的微觀調(diào)查數(shù)據(jù)庫(kù),采用計(jì)算機(jī)輔助調(diào)查技術(shù)開(kāi)展訪問(wèn),以滿足多樣化的設(shè)計(jì)需求,提高訪問(wèn)效率,保證數(shù)據(jù)質(zhì)量,是北京大學(xué)和國(guó)家自然基金委資助的重大項(xiàng)目,也是國(guó)內(nèi)最為權(quán)威的家庭層面微觀調(diào)查數(shù)據(jù)庫(kù)之一。

圖片來(lái)源:CFPS 官網(wǎng)
CFPS 的主體問(wèn)卷包括村居問(wèn)卷、家庭成員問(wèn)卷、家庭問(wèn)卷、少兒?jiǎn)柧砗统扇藛?wèn)卷五類(lèi)。調(diào)查在社區(qū)、家庭和個(gè)人三個(gè)層面進(jìn)行。
其核心目標(biāo)是系統(tǒng)收集中國(guó)家庭、社區(qū)、個(gè)體三個(gè)層面的動(dòng)態(tài)數(shù)據(jù),展現(xiàn)中國(guó)社會(huì)經(jīng)濟(jì)、人口、教育、健康等領(lǐng)域的變化。

圖片來(lái)源:CFPS 官網(wǎng)
近日,來(lái)自北京師范大學(xué)的研究團(tuán)隊(duì)基于 CFPS 數(shù)據(jù)庫(kù),探究了家庭沖突與青少年抑郁之間存在雙向惡性循環(huán)的關(guān)系,研究成果成功發(fā)表在中國(guó)科學(xué)院醫(yī)學(xué)二區(qū)期刊《Child and Adolescent Psychiatry and Mental Health》!

圖片來(lái)源:Child and Adolescent Psychiatry and Mental Health
除了上述的國(guó)產(chǎn)數(shù)據(jù)庫(kù)之外,以下數(shù)據(jù)庫(kù)也同樣可以幫助大家獲取大量的科研數(shù)據(jù),大家可以自行訪問(wèn)!

圖片來(lái)源:生物學(xué)霸
科研人都怎么看?
經(jīng)歷此次事件,很多科研人也在網(wǎng)上發(fā)表了不同的看法:
網(wǎng)友 1:之前用國(guó)外的數(shù)據(jù)庫(kù),上傳特別慢,每次學(xué)校斷網(wǎng)了還沒(méi)上傳好。現(xiàn)在用 CNSA,再也不用擔(dān)心斷網(wǎng)了,速度超快超穩(wěn)!另外,CNSA 能引用序列號(hào)發(fā)文章,存儲(chǔ)空間要大,上傳、下載速度要快,安全靠譜而且免費(fèi)!
網(wǎng)友 2:越卡脖子,獨(dú)立數(shù)據(jù)庫(kù)建得反而越快,就是會(huì)有陣痛期!
網(wǎng)友 3:作為一名從事基因編輯技術(shù)開(kāi)發(fā)與應(yīng)用研究的科研人員,數(shù)據(jù)庫(kù)就是我們最日常打交道的平臺(tái)。沒(méi)有數(shù)據(jù)信息共享,實(shí)際具體的科研工作很難開(kāi)展。如果這些公共數(shù)據(jù)庫(kù)對(duì)我們都實(shí)施關(guān)停,那我們將不得不去尋找替代數(shù)據(jù)庫(kù),而使用替代數(shù)據(jù)庫(kù)的研究可能會(huì)被質(zhì)疑 「數(shù)據(jù)代表性不足」,如僅用中國(guó)生物銀行(China Kadoorie Biobank)數(shù)據(jù)發(fā)表的成果,在 SCI 期刊接收率將會(huì)下降。無(wú)法獲取 GTEx 正常組織表達(dá)譜,就會(huì)導(dǎo)致腫瘤特異性突變研究難以完成同行評(píng)審要求的對(duì)照實(shí)驗(yàn),而這些都會(huì)嚴(yán)重影響我們的學(xué)術(shù)產(chǎn)出。
網(wǎng)友 4:這一變化只是開(kāi)始,未來(lái)一定有更多脫鉤政策出現(xiàn)。中國(guó)多年前就在未雨綢繆地建設(shè)本土數(shù)據(jù)庫(kù)。加大本土數(shù)據(jù)庫(kù)建設(shè)和使用,是中國(guó)科研圈的必然趨勢(shì)。
最后,也請(qǐng)大家及時(shí)做好應(yīng)對(duì)策略,嘗試?yán)每商娲鷶?shù)據(jù)庫(kù)和平臺(tái),定期備份關(guān)鍵數(shù)據(jù),最大限度降低封鎖帶來(lái)的影響。
題圖來(lái)源:圖蟲(chóng)創(chuàng)意
熱門(mén)跟貼