国产精品无码无卡无需播放器,日韩AV无码午夜免费福利制服,世界上面积最大的国家,黑森林福利视频导航

醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)與數(shù)據(jù)庫的發(fā)展

前言:尋找寫作靈感?中文期刊網(wǎng)用心挑選的醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)與數(shù)據(jù)庫的發(fā)展,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。

醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)與數(shù)據(jù)庫的發(fā)展

【摘要】在高通量基因檢測和信息技術(shù)的加持下,醫(yī)學(xué)基因組學(xué)的大數(shù)據(jù)構(gòu)成了精準(zhǔn)醫(yī)學(xué)的基礎(chǔ)工程,推動了人類在分子層面上深入認(rèn)識疾病和健康的進(jìn)程。通過分析醫(yī)學(xué)基因組學(xué)的大數(shù)據(jù)及其數(shù)據(jù)庫的功能、作用和特點(diǎn),闡述其對醫(yī)療及健康產(chǎn)生的重大影響及以安全、規(guī)范、有益的方式推進(jìn)和使用的必要性。

【關(guān)鍵詞】基因組學(xué);醫(yī)學(xué);數(shù)據(jù)庫;大數(shù)據(jù)

基因組學(xué)在21世紀(jì)獲得了快速的發(fā)展,主要是依賴于基因測序技術(shù)的發(fā)展和信息技術(shù)的加持。由于生物技術(shù)和信息技術(shù)的互相滲透和協(xié)同,在計算機(jī)科學(xué)的算法、算力及軟件的支持下,基因組學(xué)技術(shù)的成本正在以超過摩爾定律的速度下降。過去完成一個全基因組測序分析需要幾天,現(xiàn)在只需幾個小時就可完成。由于成本及速度的極大改善,基因組大數(shù)據(jù)正在以PB(1PB=1024TB)到EB(1EB=1024PB)的數(shù)量級累進(jìn),而目前全球每年產(chǎn)生的基因組學(xué)數(shù)據(jù)已接近EB級別。

一、醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)現(xiàn)狀

基因組學(xué)是一門研究基因組的科學(xué),其作為生命科學(xué)及其他學(xué)科的基礎(chǔ)已經(jīng)成為發(fā)展最快、最活躍的一個領(lǐng)域,也是21世紀(jì)生命科學(xué)發(fā)展的前沿和方向[1]?;蚪M學(xué)通過基因測序和分析研究基因的結(jié)構(gòu)與功能,解釋更多基因與生物體之間的關(guān)系,其與轉(zhuǎn)錄組學(xué)、蛋白組學(xué)、代謝組學(xué)共同構(gòu)成了系統(tǒng)生物學(xué)中組學(xué)研究的基礎(chǔ)[2]。基因組學(xué)及其相關(guān)產(chǎn)業(yè)能迎來快速發(fā)展的時期是始于人類基因組計劃(humangenomeproject,HGP),由美國率先發(fā)起,英國、法國、德國、日本和我國科學(xué)家共同參與的一項規(guī)模宏大、跨多學(xué)科、跨多國家的科學(xué)探索工程[3]。HGP于1990年啟動,歷時13年于2003年4月25日完成,其中2001年“人類基因組序列草圖”的發(fā)表被認(rèn)為是HGP成功的里程碑。自從HGP完成以來,對科學(xué)發(fā)展和社會各界都產(chǎn)生了非常深遠(yuǎn)的影響,極大的推動了生物醫(yī)學(xué)的研究,也為更多科學(xué)問題的探索提供了新路徑[4]。醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)正是在這種背景下產(chǎn)生和發(fā)展,是指生物醫(yī)學(xué)中的組學(xué)數(shù)據(jù),包括基因型、表型數(shù)據(jù)等,通過生物信息分析,能為健康和疾病提供決策依據(jù)的數(shù)據(jù)[5-6]。這些數(shù)據(jù)具有大數(shù)據(jù)的特點(diǎn),體量大、匯總雜、分析難,其加工處理對科技人員的素質(zhì)要求也非常高,需要具備基因組學(xué)、分子生物學(xué)、生物化學(xué)、藥理學(xué)、分子遺傳學(xué)、生物信息學(xué)、統(tǒng)計學(xué)、線性代數(shù)、數(shù)據(jù)挖掘、分布式計算、軟件工程、數(shù)據(jù)庫、網(wǎng)絡(luò)工程、信息安全、數(shù)據(jù)加密等復(fù)合知識和能力。因此,這遠(yuǎn)非個體所能完成,而是需要通過團(tuán)體的力量去完成的系統(tǒng)工程[7]。醫(yī)學(xué)基因組學(xué)的大數(shù)據(jù)是需要用特殊的軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是用新處理模式才能實(shí)現(xiàn)具有更強(qiáng)的決策力和洞察力的數(shù)據(jù)信息源,是具有海量、高增長性和多樣化的信息資產(chǎn)?;蚪M數(shù)據(jù)量越大,越能細(xì)分人群特征,越能聚類發(fā)現(xiàn)未知問題。這對于復(fù)雜疾病的病因探索、疾病預(yù)防和健康管理具有重要價值。醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)非常復(fù)雜,人類基因組是由30億對堿基構(gòu)成,隨著不同地域、人種、時空等因素不斷發(fā)生變化,首先要從中找出堿基對的異同,然后根據(jù)異同還要對應(yīng)到表型的一致性改變來進(jìn)行關(guān)聯(lián)分析。顯然,僅依靠人類的頭腦來計算是無法實(shí)現(xiàn)的,而計算機(jī)助力了這些應(yīng)用,也決定了這項工作的效率、成本、準(zhǔn)確度[8]。同時,大數(shù)據(jù)資源也可以用于交換,未來像商品一樣流通。農(nóng)耕時代土地是資源,工業(yè)革命時代礦產(chǎn)是資源,互聯(lián)網(wǎng)時代信息是資源,人工智能時代大數(shù)據(jù)就是資源。通過大數(shù)據(jù)分析可以指導(dǎo)醫(yī)療健康活動,如發(fā)現(xiàn)特別的基因位點(diǎn),用于藥物的研究等。大數(shù)據(jù)分析需要高素質(zhì)的復(fù)合性人才,還要算法、算力和軟件的輔助,需要政府、醫(yī)療機(jī)構(gòu)和科技公司團(tuán)隊的協(xié)作和共同努力。如無創(chuàng)產(chǎn)前基因檢測[9]、耳聾基因檢測[10]、病原微生物基因檢測[11],大規(guī)模人群篩查檢測項目形成了重要的公共衛(wèi)生大數(shù)據(jù)的原始積累。

二、國內(nèi)外基因組學(xué)大數(shù)據(jù)及數(shù)據(jù)庫研究中心

隨著新的生物學(xué)技術(shù)方法的出現(xiàn)和基因測序成本的降低,生物醫(yī)學(xué)數(shù)據(jù)和信息進(jìn)入了快速增長的階段,更多生命科學(xué)的研究已經(jīng)開始向臨床醫(yī)學(xué)轉(zhuǎn)化方向發(fā)展。在國際上,各國已經(jīng)陸續(xù)開展了很多大規(guī)模的基因組測序計劃?;驕y序目標(biāo)不僅是人類還包括許多動物、植物和微生物,如千人基因組計劃[12-13]、水稻參考基因組項目[14]、地球生物基因組計劃[15]。隨著基因組測序計劃的啟動加速了復(fù)雜和多樣化的組學(xué)數(shù)據(jù)的積累,而處理這些龐大且具有科研價值的數(shù)據(jù),需要安全存儲、開放共享、集中管理和應(yīng)用轉(zhuǎn)化的平臺。

(一)美國國立生物技術(shù)信息中心

美國國立生物技術(shù)信息中心(NationalCenterforBiotechnologyInformation,NCBI),創(chuàng)建于1988年。當(dāng)時由于計算機(jī)信息化處理生物醫(yī)學(xué)數(shù)據(jù)的需求越來越大,為了提供一個可以存儲、分析和管理的平臺,促進(jìn)生物醫(yī)學(xué)的進(jìn)一步研究和發(fā)展,美國創(chuàng)立了NCBI。目前該平臺包含眾多數(shù)據(jù)庫和數(shù)據(jù)檢索分析工具,其中GenBank核酸序列數(shù)據(jù)庫匯集并注釋了所有公開的核酸序列,并與歐洲核酸序列數(shù)據(jù)庫和日本的DNA數(shù)據(jù)庫中心達(dá)成國際核酸序列數(shù)據(jù)庫共享數(shù)據(jù)的合作[16]。

(二)歐洲生物信息研究所

歐洲生物信息研究所(EuropeanMolecularBiologyLaboratory-EuropeanBioinformaticsInstitute,EMBL-EBI)成立于1994年,是一個可以向全世界科學(xué)家提供免費(fèi)生物信息資源的研究機(jī)構(gòu)。該機(jī)構(gòu)建立了覆蓋多組學(xué)的大型生物信息公共數(shù)據(jù)庫,包括跨基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、化學(xué)信息學(xué)等,其中歐洲核酸序列數(shù)據(jù)庫(EuropeanNucleotideArchive,ENA)廣為世界各國的生物醫(yī)學(xué)科學(xué)家所熟知[17]。

(三)日本DNA數(shù)據(jù)庫中心

日本DNA數(shù)據(jù)庫中心(DNADataBankofJapan,DDBJ),創(chuàng)立于1984年。DDBJ開發(fā)了用于搜索堿基和氨基酸序列的SQmateh工具,并搭建了操作更加簡易的SOAP(simpleobjectaccessprotoco1)服務(wù)器,并且與NCBI的GenBank和EMBL-EBI已經(jīng)建立了緊密的合作關(guān)系,實(shí)現(xiàn)了數(shù)據(jù)共享和實(shí)時更新。此外,該中心還運(yùn)營功能基因組學(xué)、代謝組學(xué)以及人類遺傳和表型等數(shù)據(jù)庫[18]。

(四)中國國家基因庫生命大數(shù)據(jù)平臺

中國國家基因庫生命大數(shù)據(jù)平臺(ChinaNationalGeneBankDataBase,CNGBdb),是深圳國家基因庫的核心功能,是“三庫兩平臺”中生物信息數(shù)據(jù)庫的對外服務(wù)平臺。CNGBdb的主要功能是存儲人類健康及生物多樣性相關(guān)的數(shù)字化遺傳資源;同時平臺也搭建了生物數(shù)據(jù)庫及數(shù)據(jù)分析平臺,實(shí)現(xiàn)數(shù)據(jù)存儲和分析,為生物醫(yī)學(xué)科研及產(chǎn)業(yè)的轉(zhuǎn)化應(yīng)用提供大數(shù)據(jù)的基礎(chǔ)支撐[19]。秉持共有、共為、共享的原則,CNGBdb面向全球科研工作者提供生物大數(shù)據(jù)共享和應(yīng)用服務(wù),并有計劃的和美國的NCBI、歐洲的EMBL-EBI、日本的DDBJ展開合作,整合全球公開生命數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)資源共享,形成融合多研究領(lǐng)域、多數(shù)據(jù)類型、多分析維度的超大型科研數(shù)據(jù)系統(tǒng),集歸檔存儲、知識搜索、分析計算、管理授權(quán)于一體,推動中國生物遺傳數(shù)據(jù)與生命科學(xué)數(shù)據(jù)的規(guī)范管理和應(yīng)用。

三、醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)和數(shù)據(jù)庫發(fā)展困難與挑戰(zhàn)

在醫(yī)學(xué)基因組學(xué)的數(shù)據(jù)庫中,有根據(jù)其作用、功能、使用場景而進(jìn)行分類,如全基因組測序、全外顯子組測序等的數(shù)據(jù)庫;也有根據(jù)疾病類別,如地中海貧血癥、唐氏綜合征等疾病而進(jìn)行分類的數(shù)據(jù)庫。數(shù)據(jù)庫的建立是個復(fù)雜工程,有明確的開發(fā)目標(biāo)、專業(yè)人才、專門的分析工具,需要進(jìn)行論證、可行性分析等。數(shù)據(jù)的完整性和準(zhǔn)確性、數(shù)據(jù)的規(guī)范化和結(jié)構(gòu)化,合理的數(shù)據(jù)結(jié)構(gòu),優(yōu)化算法的效果,數(shù)據(jù)之間的正確關(guān)聯(lián)關(guān)系,都與數(shù)據(jù)庫的質(zhì)量息息相關(guān)[20]。

(一)更多基因與疾病之間的關(guān)系還在探索中

基因型和表型之間的關(guān)聯(lián)度以及基因和更多疾病之間的關(guān)系還在不斷探索中。如微生物檢測方向宏基因組測序技術(shù)對一些耐藥菌抗生素應(yīng)用的指導(dǎo)尚有不足,一方面是檢測方法的成本較高對耐藥相關(guān)基因覆蓋度有限,靈敏度不高;另一方面是公布的耐藥基因型和表型之間的關(guān)聯(lián)度有差異。相對單基因遺傳性疾病的發(fā)展速度和研究成果,遺傳疾病的應(yīng)用還有一些發(fā)展較慢的研究方向,包括多基因遺傳、表觀基因遺傳和線粒體遺傳等。

(二)數(shù)據(jù)個體差異問題

無論如何,建立來源于不同族群和不同遺傳背景的數(shù)據(jù),都只能是盡最大能力滿足精準(zhǔn)的需要。而個體的數(shù)據(jù)差異具有唯一性,沒有完全的重復(fù)。大數(shù)據(jù)或數(shù)據(jù)庫是達(dá)到和個體的最大公約數(shù),數(shù)據(jù)量越大準(zhǔn)確性、權(quán)威性越高。所以,數(shù)據(jù)的質(zhì)量和數(shù)量的大小決定了在精準(zhǔn)醫(yī)學(xué)領(lǐng)域的話語權(quán)。

(三)數(shù)據(jù)算法和算力有待提高

隨著龐大而繁雜的醫(yī)學(xué)基因組學(xué)數(shù)據(jù)快速增長,對數(shù)據(jù)處理的算法和算力提出了更高的要求。海量的數(shù)據(jù)快速增加并且需跨越不同維度的數(shù)據(jù)處理,傳統(tǒng)的統(tǒng)計學(xué)數(shù)據(jù)處理算法已經(jīng)不能夠滿足要求,需要結(jié)合人工智能等新算法尋求突破。在保障數(shù)據(jù)安全的情況下,需要不斷研發(fā)針對醫(yī)學(xué)基因數(shù)據(jù)處理的新技術(shù),提升算力效率。

(四)高素質(zhì)專業(yè)人才不足

數(shù)據(jù)分析和解讀對專業(yè)人員的要求越來越高。隨著新技術(shù)的發(fā)展和海量多維度的數(shù)據(jù)累積,未來需要更多跨多學(xué)科的人才支撐行業(yè)發(fā)展;信息技術(shù)、醫(yī)學(xué)和生命科學(xué)結(jié)合更加緊密,高校需要加大對多學(xué)科復(fù)合型人才的培養(yǎng)力度,以應(yīng)對更多醫(yī)療健康領(lǐng)域的復(fù)雜問題

(五)政策法規(guī)尚未完善

由于網(wǎng)絡(luò)具有共享和開放的屬性,醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)在使用和傳輸?shù)倪^程中涉及到的數(shù)據(jù)安全和個人隱私問題不可忽視[21]。因為基因大數(shù)據(jù)對生物醫(yī)學(xué)和其他健康領(lǐng)域的發(fā)展意義重大,所以數(shù)據(jù)的安全和隱私保護(hù)需要完善的機(jī)制、適應(yīng)發(fā)展的政策法規(guī)和創(chuàng)新性安全保護(hù)的技術(shù)手段。

四、醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)和數(shù)據(jù)庫發(fā)展趨勢

(一)數(shù)據(jù)庫向?qū)I(yè)化發(fā)展

醫(yī)學(xué)基因組學(xué)的大數(shù)據(jù)及數(shù)據(jù)庫,正推動著精準(zhǔn)醫(yī)學(xué)的發(fā)展。隨著數(shù)據(jù)的精細(xì)化分析能力提高和人工智能技術(shù)取得突破,數(shù)據(jù)庫將向更專業(yè)、更智能、更普遍的方向發(fā)展,根據(jù)不同工作或?qū)I(yè)建立數(shù)據(jù)庫。如肺癌數(shù)據(jù)庫、肝癌數(shù)據(jù)庫等單個疾病的數(shù)據(jù)庫,可以查到患者個體疾病的特征、疾病轉(zhuǎn)歸、以及個性化用藥的選擇等,服務(wù)于各專科臨床醫(yī)師[22]。

(二)成為醫(yī)務(wù)工作者的工具

隨著更多專業(yè)化的數(shù)據(jù)庫產(chǎn)生、新技術(shù)的快速更新與應(yīng)用將對生命結(jié)構(gòu)和疾病發(fā)生出現(xiàn)新的解讀,甚至影響疾病的診療流程。在疾病的預(yù)防、診斷、治療以及個體化用藥等各個方面都需要與時俱進(jìn)。對醫(yī)師的要求不僅需要掌握基本的醫(yī)學(xué)知識,也需要熟練使用專業(yè)的醫(yī)學(xué)基因組學(xué)的數(shù)據(jù)庫。

(三)標(biāo)準(zhǔn)化和規(guī)范化

在大數(shù)據(jù)時代的背景下,醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)的發(fā)展和使用也將越來越規(guī)范化,相應(yīng)的行業(yè)標(biāo)準(zhǔn)和體系共識也在不斷完善中。國家對大數(shù)據(jù)監(jiān)管也會越來越精細(xì)化,政策法規(guī)既要嚴(yán)格守住安全底線,也要為大數(shù)據(jù)和數(shù)據(jù)庫的健康發(fā)展奠基鋪路。

(四)堅持人文倫理的引導(dǎo)

科學(xué)技術(shù)的快速發(fā)展是需要人文倫理框架的引導(dǎo)和規(guī)范。倫理框架是為了更好的開展前沿技術(shù)的前提。醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)和數(shù)據(jù)庫的發(fā)展都應(yīng)建立在善待生命、尊重生命的基礎(chǔ)上才有利于人類的進(jìn)步與發(fā)展[23]。醫(yī)學(xué)基因組學(xué)大數(shù)據(jù)和數(shù)據(jù)庫技術(shù)需要全流程的安全、規(guī)范、有益使用,在合法合規(guī)的基礎(chǔ)上,推動科學(xué)發(fā)現(xiàn)和技術(shù)發(fā)明就顯得尤其重要[24-26]。

參考文獻(xiàn)

[1]楊煥明.基因組學(xué)[M].北京:科學(xué)出版社,2016:3-5.

[2]Francis,RichardC.Epigenetics:theultimatemysteryofinheritance[M].NewYork:WWNorton,2011:17-22.

[3]楊煥明.科學(xué)與科普——從人類基因組計劃談起[J].科普研究,2017,12(3):5-7,104.

[4]GreenED,WatsonJD,CollinsFS.HumanGenomeProject:Twenty-fiveyearsofbigbiology[J].Nature,2015,526(7571):29-31.

[5]劉相蘭,孫志福.多組學(xué)大數(shù)據(jù)在精準(zhǔn)醫(yī)學(xué)中的地位及應(yīng)用[J].精準(zhǔn)醫(yī)學(xué)雜志,2020,35(1):1-5,10.

[6]CirilloD,ValenciaA.Bigdataanalyticsforpersonalizedmedicine[J].CurrOpinBiotechnol.2019,58:161-167.

[7]RehmanA,NazS,RazzakI.Leveragingbigdataanalyticsinhealthcareenhancement:trends,challengesandopportunities[J].MultimediaSystems,2022,28:1339-1371.

[8]RashidHU,HussainF,MASOODK.ApplicationofBigDatainHealthCare[J].IJCBS,2018,13:1-5.

[9]劉靜,何思捷,唐龍妹,等.河北省無創(chuàng)產(chǎn)前基因篩查模式的理論和實(shí)踐[J].中國婦幼保健,2022,37(22):4105-4110.

[10]WangQ,XiangJ,SunJY,etal.NationwidepopulationgeneticscreeningimprovesoutcomesofnewbornscreeningforhearinglossinChina[J].GenetMed,2019,21(10):2231-2238.

[11]ChenM,ZuoX,TanY,etal.SixaminoacidsofVP1switchalongwithpandemicofCV-A6-associatedHFMDinGuangxi,southernChina,2010-2017[J].JournalofInfection,2019,78(4):323-337.

[12]PennisiE.Genomics1000GenomesProjectgivesnewmapofgeneticdiversity[J].Science,2010,330(6004):574-575.

[13]NayanahS.1000Genomesproject[J].NatureBiotechnology,2008,26(3):256.

[14]InternationalRiceGenomeSequencingProject.Themap-basedsequenceofthericegenome[J].Nature,2005,436(7052):793-800.

[15]文樂樂.地球生物基因組計劃雄心勃勃[N].中國科學(xué)報,2022-01-20(001).

[16]SayersEricW,BoltonEvanE,Brister.DatabaseresourcesoftheNationalCenterforBiotechnologyInformationin2023[J].NucleicAcidsRes,2023,51(D1):D29-D38.

[17]KulikovaT,AkhtarR,AldebertP,etal.EMBLNucleotideSequenceDatabasein2006[J].NucleicAcidsRes,2007,35(Databaseissue):D16-D20.

[18]TanizawaY,FujisawaT,KodamaY,etal.DNADataBankofJapan(DDBJ)updatereport2022[J].NucleicAcidsRes,2023,51(D1):D101-D105.

[19]陳鳳珍,游麗金,楊帆,等.CNGBdb:國家基因庫生命大數(shù)據(jù)平臺[J].遺傳,2020,42(8):799-809.

[20]PramanikPKD,MukhopadhyayM,PALS.Bigdataclassification:applicationsandchallenges[M/OL].Singapore:Springer,2021:53-84.

[21]武奧申,劉小娜,劉昀赫,等.二代基因測序數(shù)據(jù)管理和大數(shù)據(jù)平臺在精準(zhǔn)醫(yī)學(xué)中的應(yīng)用[J].中國生物工程雜志,2019,39(2):101-111.

[22]孫可欣,詹思延,胡永華.醫(yī)學(xué)大數(shù)據(jù)在藥物基因組學(xué)領(lǐng)域中的應(yīng)用與發(fā)展[J].藥物流行病學(xué)雜志,2017,26(1):68-73.

[23]PriceWN,CohenIG.Privacyintheageofmedicalbigdata[J].NatMed,2019,25:37-43.

[24]中華人民共和國網(wǎng)絡(luò)安全法[J].中華人民共和國全國人民代表大會常務(wù)委員會公報,2016,(6):899-907.

[25]中華人民共和國數(shù)據(jù)安全法[J].中華人民共和國全國人民代表大會常務(wù)委員會公報,2021,(5):951-956.

[26]中華人民共和國個人信息保護(hù)法[J].中華人民共和國全國人民代表大會常務(wù)委員會公報,2021,(6):1117-1125.

作者:許四虎 李敬宇 潘榮 晉向前 肖棉文 李雪香 單位:深圳市基于基因組學(xué)大數(shù)據(jù)的醫(yī)學(xué)分析工程技術(shù)研究中心

主站蜘蛛池模板: 梁河县| 唐山市| 广元市| 乌拉特中旗| 景东| 怀宁县| 儋州市| 涿鹿县| 新昌县| 虎林市| 江口县| 普宁市| 蒙阴县| 德清县| 邳州市| 建昌县| 沽源县| 青海省| 弥勒县| 海南省| 夏邑县| 明光市| 巧家县| 武乡县| 巴塘县| 阳信县| 旌德县| 崇州市| 云和县| 镇雄县| 安庆市| 宁津县| 郴州市| 巴林右旗| 师宗县| 双江| 辽中县| 上林县| 固原市| 同江市| 晋江市|