帝國理工:如何用 AI 解決 80% 專科醫(yī)生擔(dān)憂的心律裝置移植手術(shù)難題
2019-04-29 09:38:59 雷鋒網(wǎng)背景
全世界每年有超過一百萬人進(jìn)行心律裝置的移植手術(shù),在移植過程中,醫(yī)護(hù)人員通常是通過一些算法來輔助自己識別設(shè)備的X圖像,進(jìn)而確定起搏器或除顫器的制造商和型號。但即使是最有效的算法,識別也不是完美的,而一旦錯誤就會導(dǎo)致病情延誤。
事實上,多達(dá)80%的心臟相關(guān)專科醫(yī)生報告說他們“經(jīng)常”難以識別設(shè)備。
研究人員對來自5家生產(chǎn)廠家的45種型號的1676臺設(shè)備的X光圖像進(jìn)行提取。利用1451幅圖像作為訓(xùn)練集,建立了卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行分類。測試集還包含其余的225幅圖像,每種型號包括5個樣本,并將神經(jīng)網(wǎng)絡(luò)識別設(shè)備的能力與心臟病專家進(jìn)行了比較。
結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)對制造商設(shè)備的識別準(zhǔn)確率為99.6%(95%置信區(qū)間:97.5 ~ 100),對型號的識別準(zhǔn)確率為96.4%(95%置信區(qū)間:93.1 ~ 98.5)。5名心臟病專家對制造商識別正確率的均值為72.0%(范圍為62.2% ~ 88.9%),無法進(jìn)行型號識別。可以看出,基于神經(jīng)網(wǎng)絡(luò)識別的能力明顯優(yōu)于所有心臟病專家。
方法
數(shù)據(jù)提取
在本研究中,數(shù)據(jù)集是選取1998年2月至2018年5月期間在 Imperial College Healthcare NHS Trust醫(yī)療保健中心植入的心率儀的圖像。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要足夠多的類別樣例,每一類至少包括25幅圖像,包括便攜式和部門AP/PA胸片,不包括側(cè)位胸片。從連續(xù)病例患者中提取圖像,每個型號最多提取40張圖像,以最小化類不平衡。從每張X光圖像中,分割出一個比設(shè)備稍大的正方形區(qū)域,該區(qū)域最大限度地提高了網(wǎng)絡(luò)的信噪比。然后將這些裁剪后的圖像調(diào)整為224×224像素,并進(jìn)行歸一化,得到0到1之間的像素值。在提取過程中注意,在某些情況下,如果制造商引進(jìn)一種新型號時,在X光圖像上沒有檢測到變化,這可能只是設(shè)備軟件上的一個更新,或者是部件外觀上幾乎相同無法區(qū)分。
第一步,是從45類中隨機(jī)分配5張圖片作為“測試集”,這在網(wǎng)絡(luò)的任何訓(xùn)練階段都不會用到,在最終驗證準(zhǔn)確性時才會使用。
剩下的“訓(xùn)練集”用于訓(xùn)練網(wǎng)絡(luò),分為兩個不同階段:第一個階段是決定使用哪個底層網(wǎng)絡(luò)(包括結(jié)構(gòu)特征,如層的數(shù)量和大小)以及訓(xùn)練的快慢(稱為 “學(xué)習(xí)率”)。這些卷積神經(jīng)網(wǎng)絡(luò)類似于人類大腦的層次結(jié)構(gòu)組織,解決圖像分類問題;第二階段是調(diào)整權(quán)重的詳細(xì)過程,以對起搏器進(jìn)行分類。這兩個階段都使用了訓(xùn)練集,但方式不同。
在網(wǎng)絡(luò)訓(xùn)練第一階段 (如圖1所示),每種神經(jīng)網(wǎng)絡(luò)候選模型都從75%的訓(xùn)練集中學(xué)習(xí),并正確預(yù)測剩余25%的訓(xùn)練集。如此重復(fù)4次,這樣所有的訓(xùn)練集都輪流扮演了兩個角色。這個過程被稱為“4次交叉驗證”。
圖1 網(wǎng)絡(luò)設(shè)計流程圖
第二階段,基于第一階段選擇的神經(jīng)網(wǎng)絡(luò)模型開始,但是使用整個訓(xùn)練集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最終的神經(jīng)網(wǎng)絡(luò)模型。
最后,這個訓(xùn)練好的網(wǎng)絡(luò)模型第一次向“測試集”公開,“測試集”始終保持獨(dú)立,以評估其正確分類制造商和型號的能力。
該研究獲得了衛(wèi)生研究管理局(集成研究應(yīng)用系統(tǒng)標(biāo)識249461)的監(jiān)管批準(zhǔn)。
卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)與訓(xùn)練
我們評估了五種不同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(DenseNet、Inception V3、VGGNet、ResNet和Xception),這些架構(gòu)在近幾年都是世界領(lǐng)先級的。在對整個模型進(jìn)行再訓(xùn)練時,使用ImageNet上訓(xùn)練得到的權(quán)值對所有網(wǎng)絡(luò)進(jìn)行初始化。
對于每個網(wǎng)絡(luò),輸出層設(shè)置為45個密集連接的神經(jīng)元(對應(yīng)每個設(shè)備型號1個)。使用交叉熵?fù)p失函數(shù)對其中16幅圖像進(jìn)行損失計算,并使用ADADELTA優(yōu)化器更新權(quán)重。損失是用來評估網(wǎng)絡(luò)性能和改進(jìn)網(wǎng)絡(luò)性能的技術(shù)指標(biāo)。損失比簡單的錯誤率(準(zhǔn)確度的倒數(shù))更敏感,因為要獲得滿分(零損失),網(wǎng)絡(luò)對每個心臟起搏器圖像的正確預(yù)測達(dá)到100%。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是一個自動調(diào)整權(quán)值以使損失最小化的過程,直到損失函數(shù)達(dá)到穩(wěn)定。使用Tensorflow和Keras機(jī)器學(xué)習(xí)框架的Python編程語言進(jìn)行編程。
可視化
對每個例子進(jìn)行處理以提供特征映射,其中梯度最高的像素對應(yīng)于正確的類(突出顯示對網(wǎng)絡(luò)決策貢獻(xiàn)最大的像素),這可以使用Keras-vis軟件完成 。
借助算法的專家測試
將225張圖像的測試集提供給5名心臟病專家(其中兩個是電生理學(xué)家),同時提供心律儀識別算法CaRDIA-X(3)。該算法只針對制造商進(jìn)行區(qū)分,而不能識別特定的型號。對于每一幅圖像,都已知是起搏器、除顫器還是循環(huán)記錄器。
我們要求評分者將每種設(shè)備分類為Biotronik、Boston Scientific、Medtronic、Sorin或St. Jude Medical。
統(tǒng)計分析
對比測試神經(jīng)網(wǎng)絡(luò)和借助CaRDIA-X算法的專家對制造商分類的結(jié)果。采用McNemar檢驗進(jìn)行評估,p值0.05作為統(tǒng)計特征閾值。最后參照每位專家的評估結(jié)果計算精度均值。
精確度定義為測試集中正確分類的圖像數(shù)量除以測試集中圖像的總數(shù)。精確度的置信區(qū)間使用二項式方法計算。對于大小不相等的制造商類別,也計算F1分?jǐn)?shù),定義為精度和召回率的平均值的兩倍,范圍在0和1之間。
使用費(fèi)希爾精確檢驗,對網(wǎng)絡(luò)的準(zhǔn)確性進(jìn)行了不同子組的評估。韋爾奇不等方差t檢驗通過計算每張圖像的拉普拉斯方差來評估部門和便攜式x線片在圖像清晰度方面的差異,采用R軟件進(jìn)行統(tǒng)計分析。
結(jié)果
數(shù)據(jù)集
數(shù)據(jù)集總共包括來自1575名患者的1676張不同設(shè)備的圖像。盡管有66種不同的設(shè)備型號,但其中一些在視覺上是無法區(qū)分的,這可能只是設(shè)備中軟件的變化。型號組共有45個,其中278張X光圖像來自便攜式設(shè)備,其余1398臺為部門AP/PA片。
測試集45種型號中每種型號由5個樣本組成,總共225個樣本。
階段1:不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能比較
對于所有的網(wǎng)絡(luò)模型,經(jīng)過階段1的訓(xùn)練后,網(wǎng)絡(luò)的性能都達(dá)到了一個穩(wěn)定狀態(tài),損失函數(shù)也下降到一個平穩(wěn)水平。VGGNet的準(zhǔn)確率為4.4%,Xception的準(zhǔn)確率為91.1%。
第一階段的結(jié)論是為第2階段選擇Xception架構(gòu)打下基礎(chǔ),并預(yù)先指定訓(xùn)練的epoch為15。然后第二階段從一個全新的Xception神經(jīng)網(wǎng)絡(luò)開始,使用1451張完整的訓(xùn)練集進(jìn)行訓(xùn)練。最后,使用第二階段生成的最終神經(jīng)網(wǎng)絡(luò)對“測試集”數(shù)據(jù)進(jìn)行測試驗證。
階段2: “測試集”驗證神經(jīng)網(wǎng)絡(luò)性能
最終的神經(jīng)網(wǎng)絡(luò)識別設(shè)備制造商的準(zhǔn)確率為99.6%,對應(yīng)的F1得分為0.996。性能如圖1所示。唯一錯誤分類的圖像是Medtronic Adapta設(shè)備被誤認(rèn)為Sorin Reply設(shè)備。
不可避免地,識別模型組(而不僅僅是制造商)的性能較低,準(zhǔn)確率為96.4% (95% CI: 93.1 ~ 98.5), F1評分為0.964分。值得注意的是,在其中的8個預(yù)測中,正確的型號是前3個預(yù)測中的1個。因此,通常描述為“前3名”的準(zhǔn)確率為99.6% (95% CI: 97.5到100.0)。
便攜式X光圖像的型號識別準(zhǔn)確率為89.5% (95% CI: 75.2 - 97.1),而部門X線圖像的準(zhǔn)確率為97.9% (95% CI: 94.6 - 99.4)(兩組間差異p = 0.029)。然而,唯一的制造商分類錯誤是部門X光圖像。起搏器組準(zhǔn)確率為95.0% (95% CI: 90.4 - 97.8),ICDs組準(zhǔn)確率為96.4% (95% CI: 87.5 - 99.6%)(兩組間差異p = 1.00),準(zhǔn)確率在不同廠家之間差異不顯著(p = 0.954)。
與醫(yī)學(xué)專家的性能進(jìn)行比較
五名心臟病專家使用CaRDIA-X算法對5家制造商的225張測試集圖像進(jìn)行分類。他們的準(zhǔn)確率從62.3%到88.9%不等,平均準(zhǔn)確率為72.0%,神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率顯著高于專家。
可視化分析
在另一項探索性分析中,我們對測試集中的每張圖像都生成了特征圖,顯示它們所描述的心率儀的最大特征,就類似于臨床醫(yī)學(xué)中疾病的病征。
圖3顯示了包含2個不同型號的4幅圖像,圖4表明AT500設(shè)備的特征映射,顯示圍繞該設(shè)備特有的環(huán)形電路板組件。
討論
這是首次利用人工智能從X光圖像中識別心律裝置的研究。該神經(jīng)網(wǎng)絡(luò)在識別設(shè)備制造商方面具有更高的準(zhǔn)確性。對于從未見過的圖像,該網(wǎng)絡(luò)識別設(shè)備制造商的準(zhǔn)確率為99.6%,對應(yīng)的專家識別準(zhǔn)確率為62.3%到88.9%。
臨床應(yīng)用
在一些臨床應(yīng)用中,使用更快的、可靠的(至少和心臟病專家一樣)工具會大有用處。醫(yī)生用它從一個簡單的胸片快速評估心臟設(shè)備的性質(zhì)。因為只有特定的制造商才能與病人的設(shè)備通信,知道帶哪個程序員來可以節(jié)省寶貴的臨床時間,這樣可以在緊急情況下快速訪問設(shè)備,提供緊急治療。
機(jī)器學(xué)習(xí):特征圖
在圖3中,大多數(shù)人包括心臟病專家,都很難區(qū)分起搏器的兩種模型。然而,神經(jīng)網(wǎng)絡(luò)不僅能準(zhǔn)確地區(qū)分它們,特征圖還能突出區(qū)分它們最明顯的特征。此外,一旦這個顯著的特性被指出來(圖4),就很容易區(qū)分。
網(wǎng)絡(luò)架構(gòu)極大地影響性能
表2顯示了不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能水平,VGGNet在這項任務(wù)上的表現(xiàn)很差。ResNet設(shè)計了“殘差連接”,這種方法使原始圖像可用于網(wǎng)絡(luò)的所有后續(xù)層,而不僅僅是第一層。GoogLeNet Inception使用“1×1卷積”在層之間壓縮信息,大大降低網(wǎng)絡(luò)的復(fù)雜性。性能最好的設(shè)計是Xception,它廣泛使用了這兩種創(chuàng)新“殘差連接”和“1×1卷積”。
局限性
該神經(jīng)網(wǎng)絡(luò)可以識別英國地區(qū)常用的設(shè)備,無法適應(yīng)所有的設(shè)備。當(dāng)然,該網(wǎng)絡(luò)能夠不斷地擴(kuò)展,訓(xùn)練神經(jīng)網(wǎng)絡(luò)只需要新設(shè)備的25個樣本。
有時候,神經(jīng)網(wǎng)絡(luò)也會得出錯誤的結(jié)論。盡管網(wǎng)絡(luò)選擇的正確率在96.4%。但(巧合的是)在99.6%的情況下,正確的型號是前3個預(yù)測中的1個。
所有的神經(jīng)網(wǎng)絡(luò)都有“過度擬合”的風(fēng)險。我們試圖以兩種方式將過度擬合的風(fēng)險降至最低。首先,網(wǎng)絡(luò)的性能被定義為在未經(jīng)過訓(xùn)練的“測試集”上的準(zhǔn)確性。其次,網(wǎng)絡(luò)中包括各種“正規(guī)化”方法,例如丟失和權(quán)重衰減。
讓神經(jīng)網(wǎng)絡(luò),從“工作臺走到病床邊”的部署可能很困難,因為在護(hù)理時并不總是需要很大的處理能力。通過提供任何人都可以使用的在線Web門戶,我們可以緩解這種情況。
結(jié)論
本研究證明卷積神經(jīng)網(wǎng)絡(luò)能夠從X光片上準(zhǔn)確識別心律裝置的制造商和型號。此外,它的性能顯著超過使用流程圖的心臟病專家。
醫(yī)學(xué)能力:機(jī)器學(xué)習(xí)和人工智能在醫(yī)學(xué)領(lǐng)域,特別是在醫(yī)學(xué)圖像分析領(lǐng)域,得到了迅速的發(fā)展。我們的方法會加速患者的診斷和治療。本文也表明了神經(jīng)網(wǎng)絡(luò)越來越多的處理大量的醫(yī)學(xué)數(shù)據(jù)(整個衛(wèi)生保健系統(tǒng)),以及未來病人護(hù)理可能會越來越多地依賴計算機(jī)輔助決策。
成果轉(zhuǎn)化:將機(jī)器學(xué)習(xí)的成果從計算機(jī)實驗室轉(zhuǎn)化為現(xiàn)實應(yīng)用往往是困難的。通過研究,我們提供了一個在線教育門戶網(wǎng)站,醫(yī)生可以在線與網(wǎng)絡(luò)互動。與以往一樣,在將神經(jīng)網(wǎng)絡(luò)部署為有效工具之前,進(jìn)一步的臨床研究對于評估網(wǎng)絡(luò)的準(zhǔn)確性至關(guān)重要。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章