ChatGPT等大模型點(diǎn)燃人工智能新一輪熱潮之際,另一種累積數(shù)百萬年的天書般“語言”也在試圖用該技術(shù)獲得最新解碼。近日,全球基因測序儀龍頭因美納(Illumina)宣布推出全新的人工智能算法PrimateAI-3D,以求更準(zhǔn)確地預(yù)測患者致病基因突變。
據(jù)美國國家衛(wèi)生研究院發(fā)布的數(shù)據(jù),每年生成的基因組數(shù)據(jù)量接近400億GB。然而,獲取這些數(shù)據(jù)僅僅是解開諸多生命謎團(tuán)的第一步,想要讓它們真正有助于人類健康,尚需深度的解讀和分析。
(資料圖片僅供參考)
目前的科學(xué)研究顯示,每個(gè)人都攜帶著數(shù)百萬種基因變異,正是這些變異導(dǎo)致了健康和疾病風(fēng)險(xiǎn)的個(gè)體差異,但目前大多數(shù)變異的作用方式尚不明確。美國貝勒醫(yī)學(xué)院人類基因組測序中心和因美納人工智能實(shí)驗(yàn)室希望借助PrimateAI-3D更進(jìn)一步解決問題。
據(jù)因美納方面介紹,PrimateAI-3D采用了與ChatGPT和AlphaFold類似的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),不同之處在于PrimateAI-3D是根據(jù)基因組序列而不是人類語言來進(jìn)行訓(xùn)練?!澳憧梢栽诰S基百科和其他地方的現(xiàn)有文本上訓(xùn)練ChatGPT等生成語言模型,我們使用了類似的深度學(xué)習(xí)架構(gòu),但我們的數(shù)據(jù)來自數(shù)百萬年的自然選擇。”因美納人工智能副總裁Kyle Farh表示。
另外,在ChatGPT等生成語言模型中,現(xiàn)有的文本就可以為訓(xùn)練提供信息,而人類基因組中導(dǎo)致疾病的基因變異在很大程度上卻是未知的。為解決這一問題,PrimateAI-3D利用自然選擇來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的參數(shù),這種訓(xùn)練基于此前對(duì)233種不同靈長類動(dòng)物進(jìn)行測序時(shí)發(fā)現(xiàn)的數(shù)百萬種良性基因變異來開展,這也是迄今為止開展的最大規(guī)模的非人類靈長類物種測序工作。
“我們已經(jīng)證明,我們對(duì)非人類靈長類動(dòng)物的遺傳變異了解得越多,就越能更好地預(yù)測哪些突變可能導(dǎo)致人類疾病?!眮碜悦绹惱蔗t(yī)學(xué)院的Jeffrey Rogers說。
隨后,包括Rogers在內(nèi)的美國貝勒醫(yī)學(xué)院人類基因組測序中心及分子與人類遺傳學(xué)系的研究人員和Farh領(lǐng)導(dǎo)的因美納人工智能實(shí)驗(yàn)室團(tuán)隊(duì),將PrimateAI-3D算法應(yīng)用到了英國生物樣本庫的近50萬個(gè)個(gè)體中,識(shí)別潛在的致病人類突變。與之相關(guān)的兩篇研究近日發(fā)表在頂級(jí)學(xué)術(shù)期刊《科學(xué)》(Science)上。
他們發(fā)現(xiàn),在調(diào)查的90種不同臨床病癥中,普通人群里97%的健康成員的基因組中至少潛伏著一種高度可干預(yù)變異。研究結(jié)果還發(fā)現(xiàn)了導(dǎo)致常見疾病高風(fēng)險(xiǎn)的罕見基因變異。Farh說,總體而言,PrimateAI-3D在評(píng)估心血管疾病和2型糖尿病等健康問題的遺傳風(fēng)險(xiǎn)方面,比以往任何一種方法準(zhǔn)確度都要提高至少12%。
Farh還補(bǔ)充提到,這項(xiàng)新技術(shù)的一個(gè)優(yōu)勢在于,它同樣適用于整個(gè)人類。這也意味著,其克服了現(xiàn)有遺傳風(fēng)險(xiǎn)評(píng)估中固有的對(duì)歐洲白人血統(tǒng)人群的偏見,這些評(píng)估主要基于這些群體的數(shù)據(jù)。
因美納首席技術(shù)官Alex Aravanis表示,“將最新的人工智能技術(shù)應(yīng)用于基因組學(xué),以揭示糖尿病、心臟病和自身免疫性疾病等復(fù)雜遺傳疾病的關(guān)鍵底層信息,這一技術(shù)的推出為因美納在遺傳風(fēng)險(xiǎn)預(yù)測和藥物靶點(diǎn)發(fā)現(xiàn)方面帶來巨大機(jī)遇?!?/p>
據(jù)因美納方面表示,PrimateAI-3D將集成在因美納的互聯(lián)軟件中,供基因組學(xué)界使用。
(文章來源:澎湃新聞)
關(guān)鍵詞: