ICLR 2024 Harvard FairSeg：第一個研究分割算法公平性的大型醫療分割數據集

近年來，人工智能模型的公平性問題受到了越來越多的關註，尤其是在醫學領域，因為醫學模型的公平性對人們的健康和生命至關重要。高質量的醫學公平性數據集對促進公平學習研究非常必要。現有的醫學公平性數據集都是針對分類任務的，而沒有可用於醫學分割的公平性數據集，但是醫學分割與分類一樣都是非常重要的醫學AI任務，在某些場景分割甚至優於分類，因為它能夠提供待臨床醫生評估的器官異常的詳細空間信息。

在本文中，我們提出了第一個用於醫學分割的公平性數據集，名為Harvard-FairSeg，包含10,000個患者樣本。此外，我們提出了一種公平的誤差界限縮放方法，通過使用最新的Segment Anything Model（SAM），以每個身份組的上界誤差為基礎重新加權損失函數。為了促進公平比較，我們利用了一種新穎的評估公平性在分割任務的標準，叫做equity-scaled segmentation performance。通過全面的實驗，我們證明了我們的方法要麼具有優越性，要麼與最先進的公平學習模型在公平性能上相當。

在這裡和大傢分享一波我們ICLR 2024中稿的工作 “Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling”

在本次工作中, 我們提出了第一個研究醫療分割算法的公平性的大型數據集並且提出了方法嘗試提升不同組別的公平性（讓不同組別的準確率接近）。

論文題目：

Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling

文章地址：

https://arxiv.org/abs/2311.02189

代碼地址：

https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-FairSeg

數據集網站：

https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/

數據集下載鏈接：

https://drive.google.com/drive/u/1/folders/1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ

Harvard-Ophthalmology-AI-Lab主頁：

https://ophai.hms.harvard.edu/datasets/

（我們致力於提供高質量公平性數據集更多公平性數據集請點擊Lab的數據集）

一、背景

隨著人工智能在醫學影像診斷中的應用日益增多，確保這些深度學習模型的公平性並深入探究在復雜的現實世界情境中可能出現的隱藏偏見變得至關重要。遺憾的是，機器學習模型可能無意中包含了與醫學圖像相關的敏感屬性（如種族和性別），這可能影響模型區分異常的能力。這一挑戰促使人們在機器學習和計算機視覺領域進行了大量的努力，以調查偏見、倡導公平性，並推出新的數據集。

截至目前，隻有少數公共公平性數據集被提出用於研究公平性分類，主要的是，這些數據集中的大多數都隻是表格數據，因此不適合開發需要影像數據的公平計算機視覺模型。對計算機視覺公平性的缺失尤其令人關註，特別是考慮到依賴此類數據的深度學習模型的影響力日益增強。在醫學影像領域，隻有少數數據集被用於公平學習。然而，這些數據集大多沒有專門為公平性建模而設計（目前僅有的醫療圖像數據集我們列在了table 1）。它們通常隻包含有限范圍的敏感屬性，如年齡、性別和種族，因此限制了檢查不同人群公平性的范圍。此外，它們也缺乏全面的基準測試框架。更重要的是，盡管這些先前的數據集和方法為醫學分類提供了解決方案，但它們忽視了醫學分割這一更為關鍵的領域。

然而，為公平學習創建這樣一個新的大型數據集面臨著多重挑戰。首先，缺乏大規模、高質量的醫學數據以及手工像素級註釋，這些都需要大量勞動力和時間來收集和標註。其次，現有提升公平性的方法主要是為醫學分類設計的，當適應分割任務時，其性能仍然存疑。同樣不確定的是，分割任務中存在的不公平是否可以通過算法有效地緩解。最後，評估醫學分割模型公平性的評判標準（evaluation metric）仍然難以捉摸。此外，將現有為分類設計的公平性指標適應到分割任務上也可能存在挑戰。

為了解決這些挑戰，我們提出了第一個大規模醫學分割領域的公平性數據集， Harvard-FairSeg。該數據集旨在用於研究公平性的cup-disc segmentation，從SLO眼底圖像中診斷青光眼，如圖1所示。青光眼是全球不可逆盲目的主要原因之一，在40-80歲年齡段的患病率為3.54%，大約影響了8000萬人。盡管其重要性，早期青光眼通常無癥狀，這強調了及時進行專業檢查的必要性。對cup-disc的準確分割對於醫療專業人員早期診斷青光眼至關重要。值得註意的是，與其他群體相比，黑人患青光眼的風險加倍，然而這一人群的分割準確率通常最低。

這激勵我們整理一個數據集，以研究分割公平性問題我們提出的Harvard-FairSeg數據集的亮點如下：

（1）醫學分割領域第一個公平性學習數據集。該數據集提供了SLO眼底成像數據的cup-disc分割；

（2）該數據集配備了從現實醫院臨床情景中收集的六種敏感屬性，用於研究公平性學習問題；

（3）我們在我們提出的新數據集上評估了多個SOTA公平性學習算法，並使用包括Dice和IoU在內的多種分割性能指標進行了評估。

如何獲得大量的高質量分割標註：

本研究中測試的對象來自於一傢大型學術眼科醫院，時間跨度為2010年至2021年。本研究將發佈三種類型的數據：（1）SLO眼底掃描圖像；（2）患者人口統計信息包含了六種不同的屬性；（3）由OCT機器自動標註以及由專業醫療從業者手工評級的像素級標註如何獲得大量高質量分割標註一直是醫療分割的很重要分體。

我們新穎的通過把 cup 和disc區域的像素標註首先從OCT機器獲得，其中disc邊界在3D OCT中被分割為Bruch’s膜開口，由OCT制造商軟件實現，cup邊界被檢測為內限膜（ILM）與導致最小表面積的平面之間的交叉點和disc邊界在平面上的交叉點。大致上，cup邊界可以被認為是ILM上最靠近視盤邊界的位置，即被定義為Bruch’s膜開口。由於Bruch’s膜開口和內限膜與背景之間的高對比度，它們很容易被分割。因此因為OCT制造商軟件利用了3D信息，利用oct機器對cup和disc的分割通常是可靠的。相比之下，眼底照片上的2Dcup和disc分割可能因包括衰減的成像信號和血管阻塞等各種因素而具有挑戰性。

然而，由於OCT機器相當昂貴且在初級保健中較少見，因此我們提議將這些註釋從3D OCT遷移到2D SLO眼底圖片，以在初級保健領域的早期青光眼篩查中產生更廣泛的影響。具體來說，我們首先使用NiftyReg工具將SLO眼底圖像與OCT衍生的眼底圖像（OCT眼底）對齊隨後，將NiftyReg的仿射度量應用於OCT眼底圖像的cup-disc掩碼，使其與SLO眼底圖像對齊。這一過程有效地產生了大量高質量的SLO眼底掩碼註釋，避免了勞動密集型的手工像素標註過程。

值得註意的是，這種medical registration的操作在現實世界場景中展示了相當高的精確度，我們的經驗觀察表明，medical registration成功率大約為80%。在這一自動化過程之後，生成的掩碼經過嚴格審查，並由五名醫學專業人員小組手動評級，以確保cup-disc區域的精確標註，並排除位置錯誤的cup或disc掩碼和registration失敗的情況。

數據特征：我們的Harvard-FairSeg數據集包含來自10,000名受試者的10,000個樣本。我們將數據分為包含8,000個樣本的訓練集和包含2,000個樣本的測試集。數據集的平均年齡為60.3 ± 16.5歲。在該數據集中，包含了六個敏感屬性，用於深入的公平性學習研究，這些屬性包括年齡、性別、種族、民族、首選語言和婚姻狀況。在種族人口統計學上，數據集包括來自三個主要群體的樣本：亞洲人，有919個樣本；黑人，有1,473個樣本；白人，有7,608個樣本。在性別方面，女性占受試者的58.5%，其餘為男性。民族分佈以90.6%的非西班牙裔，3.7%的西班牙裔和5.7%的未說明。在首選語言方面，92.4%的受試者首選英語，1.5%首選西班牙語，1%首選其他語言，5.1%未確定。從婚姻狀況的角度來看，57.7%的人已婚或有伴侶，27.1%是單身，6.8%經歷過離婚，0.8%法律上分居，5.2%是喪偶，2.4%未說明。

我們的提升公平性的方法Fair Error-Bound Scaling：

我們假設獲得較小整體Dice損失的樣本組意味著模型對該特定組的樣本學習得更好，因此，這些樣本組需要較小的權重。相反，整體Dice損失較大的樣本組（即難處理的案例）可能導致更差的泛化能力並引起更多的算法偏差，這需要為這些樣本組分配較大的學習權重。因此，我們提出了一種新的公平誤差界限縮放方法，用於在訓練過程中縮放不同人群組之間的Dice損失。我們首先定義預測像素得分和真實目標之間的標準Dice損失表示為：

為了確保在不同屬性組之間的公平性，我們使用一種新穎的公平誤差界限縮放機制來增強上述Dice損失。損失函數：

通過用這些屬性權重調節預測像素得分，這種損失確保不同屬性組在模型訓練過程中平衡地貢獻於損失函數，從而促進公平性。

用於評估公平分割準確性的metric：傳統的分割度量如Dice和IoU提供了對分割性能的洞察，但可能無法有效捕捉不同群體間的公平性。考慮到這一點，我們的目標是提出一種新的metric，既包括分割的準確性，也包括在不同群體間的公平性。這就產生了一個全面的視角，確保模型既準確又公平。

為了納入群體公平性，我們需要單獨評估群體的準確性。我們首先定義一個分割度量準確率差異，如下所示：

這裡，度量了每個群體的準確性與總體準確性的總體偏差。當所有群體達到類似的分割準確性時，它接近零。

當我們考慮不同群體間的公平性時，我們需要計算總體分割準確性與每個人口統計群體內的準確性之間的相對差異。基於這個，我們定義了Equity-Scaled Segmentation Performance（ESSP）度量，如下所定義：

這種公式確保ESSP始終小於或等於 I 。隨著減小（表示群體間的分割性能平等），ESSP趨於傳統分割metric。相反，較高的表示群體間分割性能的更大差異，導致較低的ESSP得分。這種方法允許我們評估分割模型不僅在準確性（通過Dice、IoU等metric）上，而且在不同群體間的公平性上。這使得ESSP評分函數成為確保醫學成像任務中分割準確性和公平性的關鍵指標。這種metric可以和傳統的dice IoU拼到一起成為ES-Dice和ES-IoU。

二、實驗

我們選擇了兩個分割網絡作為backbone 。其中，我們選擇了最近推出的分割大模型 Segment Anything Model (SAM) 來實驗SOTA的分割準確性，另一個backbone我們選擇了TransUNet。

我們也利用了其他分割的metric例如 HD95 ASD 和NSD進行測試，下面是在種族上的結果：

三、總結

在本次工作中, 我們提出了第一個研究醫療分割算法的公平性的大型數據集並且提出了方法嘗試提升不同組別的公平性。盡管如此，通過實驗我們仍然發現不同組別直接的分割準確性差異仍然存在。未來希望通過我們和整個機器學習社區的共同努力，能夠提升弱勢組別的準確性，而達到真正的分割公平性，使得醫療分割模型能更好的部署在真實的醫療場景中。

Illustration From IconScout By Delesign Graphics

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線500 期talk視頻，3000 篇技術幹貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速並陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，並標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

[email protected]

或添加工作人員微信（chemn493）投稿，溝通投稿詳情；還可以關註“將門創投”公眾號，後臺回復“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關於我“門”

▼

將門是一傢以專註於數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力於通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126傢創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”: