斯坦福大學(xué) | 利用機器學(xué)習(xí)預(yù)測罕見疾病
指南者留學(xué)
2023-02-08 16:01:33
閱讀量:1231
<p>生物庫——包含遺傳和健康信息的數(shù)據(jù)庫——為研究人員提供了探索疾病和研究遺傳和環(huán)境對疾病軌跡的貢獻的能力。這些調(diào)查使我們能夠就飲食與疾病之間的關(guān)系、家庭規(guī)模和COVID嚴(yán)重程度等因素得出結(jié)論,為指導(dǎo)研究人員、臨床醫(yī)生和患者提供了有價值的見解。</p>
<p> </p>
<p>但生物銀行的作用取決于其中數(shù)據(jù)的數(shù)量和質(zhì)量。斯坦福大學(xué)博士生陸洋解釋說,在患者數(shù)據(jù)集中,信息不完整經(jīng)常是一個問題。“例如,我們可能知道患者曾因II型糖尿病接受過治療,”Yang說,“但如果他們從未在醫(yī)院住院治療過,那么他們的數(shù)據(jù)中可能就沒有' II型糖尿病'一詞。”對于正在進行疾病研究和尋找可能導(dǎo)致新突破的模式的研究人員來說,這種缺失的信息是一個重大障礙。</p>
<p> </p>
<p>為了解決這個問題,楊與斯坦福大學(xué)博士后王生和拉斯·奧特曼合作,拉斯·奧特曼是斯坦福大學(xué)HAI的副主任,也是生物工程、遺傳學(xué)、醫(yī)學(xué)、生物醫(yī)學(xué)數(shù)據(jù)科學(xué)以及計算機科學(xué)的教授,他們創(chuàng)建了一個模型,可以預(yù)測一套全面的診斷代碼,也稱為表型代碼,適用于英國生物樣本庫的所有患者。這家銀行擁有來自英國的50萬參與者的數(shù)據(jù),其中包括罕見疾病患者。通過創(chuàng)建POPDx(一種用于疾病識別的機器學(xué)習(xí)框架),研究團隊創(chuàng)建了一個模型,根據(jù)Yang的說法,該模型“產(chǎn)生一個人可能患有某些疾病或表型代碼的概率”。</p>
<p> </p>
<p>事實上,POPDx在預(yù)測常見和罕見疾病(包括訓(xùn)練數(shù)據(jù)中不存在的疾病)方面優(yōu)于現(xiàn)有模型。奧爾特曼說,這是一個重要的發(fā)現(xiàn)。“雖然大多數(shù)使用深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法都需要大量的訓(xùn)練,但我們很高興我們使用文本和分類學(xué)等先驗知識的方法使我們能夠識別出測試集中的一些疾病,盡管我們以前從未在訓(xùn)練中見過它們。這一點很重要,因為雖然醫(yī)學(xué)領(lǐng)域有大量數(shù)據(jù),但規(guī)模與大型it公司不同,因此我們開發(fā)出可以處理稀疏數(shù)據(jù)的方法,并能很好地幫助患有罕見疾病的患者,這一點至關(guān)重要。”</p>
<p> </p>
<p>來自真實患者的真實數(shù)據(jù)</p>
<p><br />在著手這項研究時,Yang考慮了第二作者Wang之前在細胞分類方面的工作。在這項研究中,Wang使用細胞本體為測試集中的所有細胞預(yù)測了一個正確的細胞類型。楊希望對POPDx采取類似的方法,但針對的是疾病。“我認為同樣利用人類疾病本體論中的疾病關(guān)系來解決疾病識別問題會很酷。”而王的研究是一對一的。-所有分類問題,其中只有一種細胞類型被預(yù)測,楊需要多個標(biāo)簽。她說:“每個病人都可能患有多種疾病,所以我們把它作為一個多標(biāo)簽、多分類的問題來處理。”</p>
<p> </p>
<p>楊絳作品的另一個關(guān)鍵不同之處在于她所使用的信息的廣度。POPDx模型查看了大量的患者數(shù)據(jù),從人口統(tǒng)計信息和患者問卷到醫(yī)療檢查和電子病歷數(shù)據(jù)。它甚至可以從物理數(shù)據(jù)和實驗室測試中提取信息。她說:“在此之前,大多數(shù)現(xiàn)有模型都需要精心策劃的數(shù)據(jù)集,這意味著它們可能無法研究我們能夠通過工作研究的豐富特征。”楊的大規(guī)模工作直接轉(zhuǎn)化為該模型可以預(yù)測的廣泛疾病代碼。“通常研究是針對某個領(lǐng)域的,比如心臟病,所以他們只會看相關(guān)的信息或代碼。但在我們的研究中,我們試圖提供英國生物銀行參與者的完整資料。”</p>
<p> </p>
<p>盡管數(shù)據(jù)集很小,但仍能預(yù)測疾病</p>
<p><br />POPDx模型的工作原理是尋找患者數(shù)據(jù)和疾病信息之間的關(guān)系,使用自然語言處理和人類疾病本體論來做出概率決策。“該模型面臨的最大挑戰(zhàn)來自于我們在訓(xùn)練中沒有看到或幾乎沒有數(shù)據(jù)的疾病。正如我們所知,大多數(shù)ML模型依賴于大型數(shù)據(jù)集,但其中一些疾病沒有數(shù)據(jù)。”Yang說。</p>
<p> </p>
<p>POPDx在有限或甚至沒有數(shù)據(jù)的情況下的穩(wěn)定性能是非常強大的,避免了對龐大數(shù)據(jù)集的需求。Yang能夠?qū)⑽匆娂膊『秃币娂膊〉腁UPRC(模型的精確度量)提高218%和151%。根據(jù)楊教授的說法,這意味著如果一個臨床團隊需要識別低流行率疾病的患者,“我們的模型平均上將增加發(fā)現(xiàn)這些陽性病例的可能性。以前,他們必須檢查生物樣本庫中的大量患者,但現(xiàn)在他們可以篩選更少的患者,以發(fā)現(xiàn)可能的病例。”POPDx識別罕見疾病的能力為臨床醫(yī)生和研究人員研究這些疾病提供了一個更好的起點。</p>
<p> </p>
<p>Yang指出的一個挑戰(zhàn)是英國生物銀行的人口結(jié)構(gòu)傾斜,其中56%是女性,大多數(shù)是白人,平均年齡為71歲。但生物庫缺乏多樣性與數(shù)據(jù)的關(guān)系較小,而與廣泛的醫(yī)療保健服務(wù)有關(guān)。“問題是,如果有人無法獲得醫(yī)療保健,我們就沒有他們的數(shù)據(jù)。”楊說。研究人員通過介紹疾病之間的等級和關(guān)系的背景信息來解決這一問題,這使模型在處理不熟悉的疾病時得到了提升。</p>
<p> </p>
<p>Yang認為,這種策略也可能為模型增加了一些隨機性,并減輕了偏差。Yang的希望是未來會有更多的基礎(chǔ)設(shè)施來實現(xiàn)跨多個生物庫的數(shù)據(jù)集成,從而實現(xiàn)更多樣化的數(shù)據(jù)集。</p>
<p> </p>
<p>疾病預(yù)測的未來</p>
<p><br />當(dāng)她展望未來時,楊對患者數(shù)據(jù)的時間序列分析感興趣,這不僅可以觀察患者患病的概率,還可以觀察患者可能在生命中的什么時候患病。另一個可能的途徑是將表型和基因型數(shù)據(jù)整合到模型中,這將使研究人員對疾病有一個比現(xiàn)在更全面的視角。無論下一步如何,楊致遠都致力于建立適用于所有人的包容性模式。“無論是患者還是研究人員,獲取數(shù)據(jù)都是至關(guān)重要的。”楊說。</p>
<p> </p>
<p>斯坦福人工智能研究院的使命是推進人工智能研究、教育、政策和實踐,以改善人類狀況。學(xué)習(xí)更多的知識。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點。</p>
</blockquote>