申請自助網(wǎng)站深圳網(wǎng)站設(shè)計專業(yè)樂云seo
🌟🌟 歡迎來到我的技術(shù)小筑,一個專為技術(shù)探索者打造的交流空間。在這里,我們不僅分享代碼的智慧,還探討技術(shù)的深度與廣度。無論您是資深開發(fā)者還是技術(shù)新手,這里都有一片屬于您的天空。讓我們在知識的海洋中一起航行,共同成長,探索技術(shù)的無限可能。
🚀 探索專欄:學步_技術(shù)的首頁 —— 持續(xù)學習,不斷進步,讓學習成為我們共同的習慣,讓總結(jié)成為我們前進的動力。
🔍 技術(shù)導航:
- 人工智能:深入探討人工智能領(lǐng)域核心技術(shù)。
- 自動駕駛:分享自動駕駛領(lǐng)域核心技術(shù)和實戰(zhàn)經(jīng)驗。
- 環(huán)境配置:分享Linux環(huán)境下相關(guān)技術(shù)領(lǐng)域環(huán)境配置所遇到的問題解決經(jīng)驗。
- 圖像生成:分享圖像生成領(lǐng)域核心技術(shù)和實戰(zhàn)經(jīng)驗。
- 虛擬現(xiàn)實技術(shù):分享虛擬現(xiàn)實技術(shù)領(lǐng)域核心技術(shù)和實戰(zhàn)經(jīng)驗。
🌈 非常期待在這個數(shù)字世界里與您相遇,一起學習、探討、成長。不要忘了訂閱本專欄,讓我們的技術(shù)之旅不再孤單!
💖💖💖 ?? 歡迎關(guān)注和訂閱,一起開啟技術(shù)探索之旅! ??
文章目錄
- 1. 背景介紹
- 2. 方法
- 2.1 初步回顧
- 2.2 總覽
- **FoodSAM 框架**
- 2.3 FoodSAM 框架
- **語義增強**
- **實例分割**
- **全景分割**
- **可提示分割**
- 3. 實驗
- 3.1 實驗設(shè)置
- 數(shù)據(jù)集
- 3.2 實現(xiàn)細節(jié)
- 3.3 評估指標
- 3.4 與最新方法的比較
- **語義分割評估**
- **實例分割評估**
- **全景分割評估**
- **可提示分割評估**
- 3.5 FoodSAM 的改進
- **融合實驗**
- **消融實驗**
- **閾值影響**
- 4. 結(jié)論
1. 背景介紹
Lan X, Lyu J, Jiang H, et al. Foodsam: Any food segmentation[J]. IEEE Transactions on Multimedia, 2023.
在本文中,我們探討了 Segment Anything Model (SAM) 在食品圖像分割任務(wù)中的零樣本能力。為了解決 SAM 生成的掩碼中缺乏類別特定信息的問題,我們提出了一個新框架,稱為 FoodSAM。該創(chuàng)新方法將粗語義掩碼與 SAM 生成的掩碼相結(jié)合,以提升語義分割的質(zhì)量。此外,我們注意到食品中的食材可以被視為獨立的個體,這啟發(fā)我們在食品圖像上執(zhí)行實例分割。
進一步地,FoodSAM 通過集成一個目標檢測器,將其零樣本能力擴展到全景分割,從而有效捕獲非食品對象的信息。受最近可提示分割(promptable segmentation)成功的啟發(fā),我們還將 FoodSAM 擴展為支持各種提示變體的可提示分割。結(jié)果,FoodSAM 成為一個多層次粒度分割的全方位解決方案。
值得注意的是,這一開創(chuàng)性框架成為首個在食品圖像上實現(xiàn)實例分割、全景分割和可提示分割的工作。大量實驗表明了 FoodSAM 的可行性和出色的性能,驗證了 SAM 在食品圖像分割領(lǐng)域作為重要和有影響力工具的潛力。
自然語言處理領(lǐng)域【1】【2】【3】因大規(guī)模語言模型的出現(xiàn)【4】【5】【6】而發(fā)生了革命性變化,這些模型基于海量網(wǎng)頁數(shù)據(jù)訓練,展現(xiàn)了令人印象深刻的零樣本泛化能力,能夠超越其原始訓練領(lǐng)域,在多個任務(wù)和數(shù)據(jù)分布上表現(xiàn)出色。在計算機視覺領(lǐng)域,Meta AI 最近發(fā)布的 Segment Anything Project (SAM) 提出了一種開創(chuàng)性的可提示分割任務(wù),用于訓練一個強大的視覺基礎(chǔ)模型。這項雄心勃勃的工作標志著向全面認知識別所有物體邁出了重要一步,同時探索了交互式分割的挑戰(zhàn),并有效地考慮了真實世界的約束。
SAM 在各種分割基準測試中表現(xiàn)卓越,其零樣本遷移能力在23個不同分割數(shù)據(jù)集上得到了驗證【7】。本文聚焦于 SAM 在食品圖像分割領(lǐng)域的零樣本能力,這是一項食品計算領(lǐng)域中的關(guān)鍵任務(wù)【8】【9】【10】。然而,SAM 單獨生成的掩碼效果并不令人滿意,主要是由于其生成的掩碼缺乏類別特定信息。此外,與一般物體圖像的語義分割相比,食品圖像分割更具挑戰(zhàn)性,因為食品外觀的多樣性大且食材類別分布不平衡【11】。因此,利用 SAM 準確區(qū)分食品的類別和屬性是一項艱巨的任務(wù)。
為了解決上述問題,我們提出了一個名為 FoodSAM 的新型零樣本分割框架,它通過將原始語義掩碼與 SAM 生成的類別無關(guān)的掩碼結(jié)合起來,提升分割效果。盡管 SAM 在食品圖像分割中展現(xiàn)了顯著的能力,但其缺乏類別特定信息。相較之下,傳統(tǒng)分割方法保留了類別信息,但在分割質(zhì)量上有所妥協(xié)。為提升語義分割質(zhì)量,我們倡導將原始分割輸出與 SAM 生成的掩碼融合,并通過識別掩碼的主要元素確定其類別,這是一種新穎且有效的增強語義分割的方式。
由于食品中的食材通常被隨機切割并放置,它們可以被視為獨立的個體。這啟發(fā)我們在食品圖像上實現(xiàn)實例分割。SAM 生成的掩碼與獨立實例天然相關(guān),為我們在食品圖像上執(zhí)行實例分割奠定了基礎(chǔ)。
食品圖像中常包含非食品物體,如叉子、勺子、玻璃杯和餐桌等。這些物體雖非食材,但對食品的屬性表征至關(guān)重要。FoodSAM 引入目標檢測方法【12】【13】【14】,檢測背景中的非食品物體,并通過結(jié)合 SAM 生成的背景掩碼,將物體類別標簽作為語義標簽。結(jié)合實例分割方法,該框架能夠成功實現(xiàn)食品圖像的全景分割。
受 SAM 項目的啟發(fā),我們將研究擴展到“食品圖像分割提示任務(wù)”。我們設(shè)計了一種簡單而有效的目標檢測方法,使 FoodSAM 支持可提示分割,支持多種提示形式,如點、框和掩碼提示。通過點定位、框覆蓋或掩碼重疊來選擇感興趣的物體。結(jié)合 SAM 的可提示分割和原始語義掩碼,我們在食品和非食品物體上實現(xiàn)了多個粒度級別的可提示分割。
主要貢獻:
-
全方位分割能力:我們提出了一個全新的零樣本框架 FoodSAM,能夠在不同粒度級別上完成食品分割任務(wù)。這項工作首次探索了 SAM 在食品圖像分割領(lǐng)域的應(yīng)用,成功擴展了其零樣本能力。
-
多種分割任務(wù)的突破:這是首個在食品圖像上實現(xiàn) 實例分割、全景分割 和 可提示分割 的工作。
-
實驗結(jié)果:通過在 FoodSeg103 和 UECFoodPix Complete 數(shù)據(jù)集上的全面評估,FoodSAM 在兩個數(shù)據(jù)集上均優(yōu)于當前最先進的方法。此外,FoodSAM 的性能在所有食品分割任務(wù)中都超越了其他 SAM 變體。
2. 方法
2.1 初步回顧
Segment Anything Model (SAM)【7】是第一個將基礎(chǔ)模型應(yīng)用于圖像分割任務(wù)領(lǐng)域的模型。如圖2所示,該模型包含三個關(guān)鍵組件:圖像編碼器、提示編碼器和輕量化的掩碼解碼器模塊。
-
圖像編碼器:
- 使用計算密集型的視覺 Transformer 架構(gòu),包含數(shù)百萬個參數(shù),有效提取輸入圖像的顯著視覺特征。
- 提供三種特定尺度的預訓練配置:
- ViT-B(91M 參數(shù))
- ViT-L(308M 參數(shù))
- ViT-H(636M 參數(shù))【56】【57】。
-
提示編碼器:
- 支持四種文本或空間提示輸入:
- 點(points)
- 框(boxes)
- 自由格式文本(freeform text)
- 現(xiàn)有掩碼(existing masks)
- 提示的表示方法:
- 點和框使用位置編碼【58】。
- 文本由預訓練的 CLIP 模型中的文本編碼器編碼【20】。
- 掩碼輸入通過卷積嵌入。
- 提示嵌入和圖像特征逐元素相加。
- 支持四種文本或空間提示輸入:
-
掩碼解碼器模塊:
- 使用基于 Transformer 的架構(gòu):
- 對提示應(yīng)用自注意力。
- 對提示和圖像編碼器輸出應(yīng)用交叉注意力。
- 動態(tài)掩碼預測頭輸出像素級掩碼概率和預測的 IoU(Intersection over Union)指標。
- 使用轉(zhuǎn)置卷積對解碼器特征進行上采樣。
- 能夠為每個提示輸入生成多個掩碼,默認情況下每個提示生成三個掩碼。
- 圖像特征僅需提取一次,可在相同圖像的不同提示間重復使用,從而支持實時交互式應(yīng)用(如移動增強現(xiàn)實)。
- 使用基于 Transformer 的架構(gòu):
SAM 在超過 1100 萬張圖像和 10 億掩碼的大規(guī)模數(shù)據(jù)集上訓練,展現(xiàn)了強大的零樣本遷移能力。正如其名稱所示,SAM 可以分割幾乎任何概念,包括訓練期間從未見過的新物體。
最近,有幾項相關(guān)工作提出了解決 SAM 局限性的改進方法:
-
RAM【59】:
- 一種基于 SAM 的創(chuàng)新圖像標記基礎(chǔ)模型。
- 通過在大量圖像-文本對上訓練,能夠高效識別常見類別,無需手動標注即可獲得大量圖像標簽。
-
SEEM【60】:
- 一種交互式分割模型,可同時在全像素和全語義范圍內(nèi)執(zhí)行圖像分割。
- 支持多種交互提示類型(包括點擊、框、多邊形、涂鴉、文本和引用區(qū)域)。
- 在開放詞匯分割和交互式分割任務(wù)中表現(xiàn)出色,并展現(xiàn)了對多樣化用戶需求的強大泛化能力。
-
SSA【61】:
- 一種新型開放框架,將 SAM 應(yīng)用于語義分割任務(wù)。
- 允許用戶將現(xiàn)有語義分割器無縫集成到 SAM 中,而無需重新訓練或微調(diào) SAM 的參數(shù)。
- 提升了語義分割任務(wù)中的泛化能力和掩碼邊界的細化效果。
2.2 總覽
我們探索了將 SAM 這一強大的掩碼生成器應(yīng)用于食品圖像分割。盡管 SAM 能夠高質(zhì)量地分割食品圖像,其生成的掩碼缺乏類別語義信息,而標準語義分割方法雖然提供了類別標簽,但分割質(zhì)量較差。
FoodSAM 框架
- 提出了 FoodSAM,融合了 SAM 和傳統(tǒng)語義分割的優(yōu)點。
- 語義增強:通過基于掩碼與類別匹配的方式,為 SAM 的高質(zhì)量掩碼賦予語義標簽。
- 實例分割:將食品食材視為獨立個體,進行實例分割。
- 全景分割:通過引入目標檢測器,檢測背景中的非食品物體(如餐桌、盤子、勺子等),實現(xiàn)食品圖像的高質(zhì)量全景分割。
- 可提示分割:結(jié)合 SAM 的提示學習方法,引入點、框和掩碼提示,支持多粒度的交互式提示分割。
2.3 FoodSAM 框架
FoodSAM 由以下三大模型組成:
- SAM (Ma):
- 提供高質(zhì)量的類別無關(guān)掩碼。
- 語義分割模塊 (Ms):
- 提供類別標簽的分割結(jié)果。
- 目標檢測器 (Md):
- 檢測背景中的非食品物體,并為其分配語義標簽。
框架的核心創(chuàng)新包括:
- 掩碼-類別匹配:
- 為 SAM 掩碼分配語義標簽。
- 融合策略:
- 將重疊掩碼按面積排序,從大到小融合。
- 提示優(yōu)先選擇:
- 通過點、框和掩碼提示實現(xiàn)交互式分割。
語義增強
- 假設(shè)輸入食品圖像 I ∈ R H × W I \in R^{H \times W} I∈RH×W:
- 語義分割模塊生成語義掩碼 m s = M s ( I ) m_s = M_s(I) ms?=Ms?(I)。
- SAM 生成二值掩碼 m a ∈ R K × H × W m_a \in R^{K \times H \times W} ma?∈RK×H×W。
- 掩碼類別匹配:
- 對于 m a m_a ma? 的第 i i i 個掩碼 m a i m^i_a mai?,通過投票選擇類別標簽 s i s_i si?,并根據(jù)閾值 τ \tau τ 過濾不穩(wěn)定的掩碼。
實例分割
- 將小型掩碼合并到相鄰的同類掩碼中。
- 過濾掉與背景類別對應(yīng)的掩碼。
全景分割
- 引入目標檢測器 M d M_d Md?:
- 檢測非食品物體的邊界框 B d B_d Bd? 和類別標簽 C d C_d Cd?。
- 結(jié)合 SAM 掩碼,通過 IoU 匹配為非食品物體分配類別標簽。
可提示分割
- 支持點提示、框提示和掩碼提示,通過 SAM 和目標檢測器的提示優(yōu)先選擇機制,實現(xiàn)多粒度交互分割。
最終,FoodSAM 實現(xiàn)了語義、實例、全景和可提示分割,為食品圖像分割設(shè)立了新的標準。
3. 實驗
3.1 實驗設(shè)置
數(shù)據(jù)集
-
UECFoodPix Complete [15]
- 由電氣通信大學在2020年發(fā)布。
- 包含102種菜肴,共有9000張訓練圖像和1000張測試圖像。
- 為每個食品項提供語義標簽,共有103個類別標簽。
- 分割掩碼通過 GrabCut 半自動生成(基于用戶初始化的種子)【63】,然后由人工根據(jù)預定義規(guī)則進一步精煉【64】。
-
FoodSeg103 [11]
- 最近設(shè)計的食品圖像分割數(shù)據(jù)集,共包含7118張圖像,涉及730種菜肴。
- 提供更細粒度的注釋,捕獲每道菜肴中單獨成分的特性。
- 訓練集包含4983張圖像,提供29530個成分掩碼;測試集包含2135張圖像,提供12567個成分掩碼。
- 掩碼均通過人工注釋獲得。與 UECFoodPix Complete 相比,FoodSeg103 提供更具挑戰(zhàn)性的基準,并具有更細粒度的成分注釋。
3.2 實現(xiàn)細節(jié)
- 硬件:實驗基于 NVIDIA GeForce RTX 3090 GPU 運行。
- FoodSAM 組件:
- SAM 的圖像編碼器使用 ViT-H【56】,超參數(shù)與原論文一致。
- 目標檢測器使用 UniDet【14】。
- 語義分割模塊:
- 在 FoodSeg103 上基于 SETR【37】,使用 ViT-16/B 作為編碼器,MLA 作為解碼器,使用 GitHub 提供的檢查點。
- 在 UECFoodPix Complete 上基于 Deeplabv3+【65】,使用與論文中相同的超參數(shù)重新訓練檢查點。
3.3 評估指標
-
mIoU (平均交并比):衡量推理結(jié)果與真實值之間的重疊和聯(lián)合。
mIoU = 1 N ∑ i = 1 N TP i TP i + FP i + FN i \text{mIoU} = \frac{1}{N} \sum_{i=1}^N \frac{\text{TP}_i}{\text{TP}_i + \text{FP}_i + \text{FN}_i} mIoU=N1?i=1∑N?TPi?+FPi?+FNi?TPi??
其中:- TP i \text{TP}_i TPi?:正確分類為類別 i i i 的像素數(shù)。
- FP i \text{FP}_i FPi?:錯誤分類為類別 i i i 的像素數(shù)。
- FN i \text{FN}_i FNi?:真實值為類別 i i i,但未正確分類的像素數(shù)。
-
mAcc (平均精度):所有類別的平均精度。
mAcc = 1 N ∑ i = 1 N TP i TP i + FN i \text{mAcc} = \frac{1}{N} \sum_{i=1}^N \frac{\text{TP}_i}{\text{TP}_i + \text{FN}_i} mAcc=N1?i=1∑N?TPi?+FNi?TPi?? -
aAcc (總體精度):所有像素的準確分類比例。
aAcc = ∑ i = 1 N TP i ∑ i = 1 N ( TP i + FN i ) \text{aAcc} = \frac{\sum_{i=1}^N \text{TP}_i}{\sum_{i=1}^N (\text{TP}_i + \text{FN}_i)} aAcc=∑i=1N?(TPi?+FNi?)∑i=1N?TPi??
3.4 與最新方法的比較
語義分割評估
- FoodSeg103 上性能:
- FoodSAM 達到 46.42 mIoU, 58.27 mAcc, 84.10 aAcc。
- UECFoodPix Complete 上性能:
- FoodSAM 達到 66.14 mIoU, 78.01 mAcc, 88.47 aAcc。
- 與其他零樣本方法對比:
- FoodSAM 的 mIoU 均高于30,超越監(jiān)督方法最高 45.1 mIoU。
- 定性分析:
- FoodSAM 利用 SAM 的強大分割能力補償原始分割器的缺陷,在細粒度成分上表現(xiàn)更優(yōu)。
實例分割評估
- 無相關(guān)基準,定性分析表明:
- FoodSAM 能有效識別食材實例身份,并實現(xiàn)高質(zhì)量實例分割。
- 與 RAM【59】相比,FoodSAM 能更細粒度地分割草莓等復雜食材。
全景分割評估
- 在無相關(guān)數(shù)據(jù)集的情況下,與 RAM 和 SEEM 進行定性對比:
- FoodSAM 在非食品物體(如碗、盤子)上的分割表現(xiàn)優(yōu)異。
- 能有效區(qū)分細粒度差異,如裝有食材的碗和裝牛奶的玻璃杯。
可提示分割評估
- FoodSAM 支持點提示、框提示和掩碼提示。
- 定性分析表明:
- FoodSAM 能識別食品成分類別,并在背景中分割非食品物體。
3.5 FoodSAM 的改進
融合實驗
- 隨著合并掩碼數(shù)量的增加,性能顯著提高。
- 在 FoodSeg103 和 UECFoodPix Complete 上使用 80 個掩碼時,性能達到最佳。
消融實驗
- 在 FoodSeg103 上驗證不同組件的功能:
- 過濾含混類別標簽(FCC)或未過濾。
- 使用或未使用 SAM 生成的掩碼(WSM)。
- 將面積從大到小排序融合表現(xiàn)最佳。
閾值影響
- 在 FoodSeg103 上,較高的閾值對改進效果有限。
- 在 UECFoodPix Complete 上,混淆標簽數(shù)量較多時,改進更顯著。
4. 結(jié)論
本文研究了 SAM 在食品圖像分割中的零樣本能力,針對其類別信息不足的問題,提出了 FoodSAM 框架。FoodSAM 通過結(jié)合原始語義掩碼與 SAM 的類別無關(guān)掩碼,顯著提升了語義分割質(zhì)量。此外,FoodSAM 利用 SAM 的實例掩碼,實現(xiàn)了食品圖像的實例分割,并結(jié)合目標檢測器完成了全景分割。
FoodSAM 還支持多種提示形式,實現(xiàn)交互式提示分割。綜合評估表明,FoodSAM 在多個數(shù)據(jù)集上超越現(xiàn)有方法,驗證了 SAM 在食品圖像分割領(lǐng)域的潛力。
🌟 在這篇博文的旅程中,感謝您的陪伴與閱讀。如果內(nèi)容對您有所啟發(fā)或幫助,請不要吝嗇您的點贊 👍🏻,這是對我最大的鼓勵和支持。
📚 本人雖致力于提供準確且深入的技術(shù)分享,但學識有限,難免會有疏漏之處。如有不足或錯誤,懇請各位業(yè)界同仁在評論區(qū)留下寶貴意見,您的批評指正是我不斷進步的動力!😄😄😄
💖💖💖 如果您發(fā)現(xiàn)這篇博文對您的研究或工作有所裨益,請不吝點贊、收藏,或分享給更多需要的朋友,讓知識的力量傳播得更遠。
🔥🔥🔥 “Stay Hungry, Stay Foolish” —— 求知的道路永無止境,讓我們保持渴望與初心,面對挑戰(zhàn),勇往直前。無論前路多么漫長,只要我們堅持不懈,終將抵達目的地。🌙🌙🌙
👋🏻 在此,我也邀請您加入我的技術(shù)交流社區(qū),共同探討、學習和成長。讓我們攜手并進,共創(chuàng)輝煌!