任何情況下的任何圖像！港大開源的深度估計上線1天就1.5k star！

來源：3DCV

添加v：dddvision，備註：深度估計，拉你入群。文末附行業細分群

0. 寫在前面

今天筆者為大傢推薦一篇最新開源的單目深度估計工作Depth Anything，這項工作沒有像以前那樣設計各種各樣的模塊，而是用簡單的框架實現了任何情況下任何圖像的深度估計！

下面一起來閱讀一下這項工作~

1. 論文信息

標題：Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

作者：Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

機構：香港大學、TikTok、之江實驗室、浙江大學

原文鏈接：https://arxiv.org/abs/2401.10891

代碼鏈接：https://github.com/LiheYoung/Depth-Anything

Demo展示：https://huggingface.co/spaces/LiheYoung/Depth-Anything

官方主頁：https://depth-anything.github.io/

2. 摘要

這項工作提出了Depth Anything，一種高度實用的魯棒單目深度估計解決方案。在不追求新穎的技術模塊的情況下，我們的目標是建立一個簡單而強大的基礎模型來處理任何情況下的任何圖像。為此，我們通過設計數據引擎來擴大數據集的規模，以收集和自動標註大規模未標記數據( ~ 62M )，這顯著地擴大了數據覆蓋范圍，從而能夠降低泛化誤差。我們研究了兩種簡單而有效的策略，使數據放大成為可能。首先，利用數據增強工具創建更具挑戰性的優化目標。它迫使模型主動尋求額外的視覺知識並獲得魯棒的表示。其次，開發了一個輔助監督來強制模型從預訓練的編碼器中繼承豐富的語義先驗。我們對其零樣本能力進行了廣泛的評估，包括六個公開數據集和隨機拍攝的照片。它顯示出令人印象深刻的泛化能力。進一步，通過使用NYUv2和KITTI的度量深度信息對其進行微調，設置新的SOTA。我們更好的深度模型也產生了更好的深度條件控制網絡。

3. 效果展示

Depth Anything在1.5 M標記圖像和62M 未標記圖像上進行聯合訓練，具有以下特點：

（1）零樣本相對深度估計優於MiDaS v3.1 ( BEiTL-512 )。

（2）零樣本度量深度估計由於ZoeDepth。

（3）對NYUv2和KITTI進行最佳域內微調和評估。

（4）基於自己的Depth Anything升級了一個更好的深度條件控制網絡。

和MiDaS的定性對比。

4. 主要貢獻

（1）強調了海量、廉價和多樣化的未標記圖像的數據擴展對MDE的價值。指出了聯合訓練大規模有標記和無標記圖像的一個關鍵實踐。不是直接學習原始的未標記圖像，而是用更難的優化目標來挑戰模型，以獲得額外的知識。

（2）提出從預訓練的編碼器中繼承豐富的語義先驗，以更好地理解場景，而不是使用輔助的語義分割任務。

（3）模型表現出比現有Midas- Beitl-512模型更強的零樣本能力。隨著度量深度的微調，顯著優於ZoeDepth。

5. 具體原理是什麼？

實線：標記圖像的流，虛線：未標記圖像。S表示加入強擾動。Depth Anything特別突出了大規模未標記圖像的價值。為了深度估計模型具有豐富的語義先驗，在線學生模型和凍結編碼器之間施加一個輔助約束以保持語義能力。

6. 和其他SOTA方法的對比

零樣本相對深度估計。

零樣本度量深度估計。

7. 總結

這項工作提出了Depth Anything，一種高度實用的魯棒單目深度估計解決方案。與現有技術不同的是，Depth Anything特別強調了廉價且多樣的無標簽圖像的價值。作者設計了兩種簡單但高效的策略來充分挖掘它們的價值：1 )在學習無標簽圖像時提出更具挑戰性的優化目標；2 )從預訓練的模型中保留豐富的語義先驗。因此，Depth Anything模型表現出優異的零樣本深度估計能力，同時也為下遊的度量深度估計和語義分割任務提供了一個很有前途的初始化。

對更多實驗結果和文章細節感興趣的讀者，可以閱讀一下論文原文~

3D視覺交流群

大傢好，群裡會第一時間發佈3D計算機視覺方向的最前沿論文解讀和交流分享，主要方向有：

視覺SLAM、激光SLAM、ORB-SLAM、Vins-Fusion、LOAM/LeGo-LOAM、cartographer、VIO、語義SLAM、濾波算法、多傳感器融合、多傳感器標定、MSCKF、動態SLAM、MOT SLAM、NeRF-SLAM、FAST-LIO、LVI-SAM、LIO-SAM、事件相機、GPS/RTK/UWB/IMU/碼盤/TOF（iToF、dToF）、激光雷達、氣壓計、毫米波雷達、RGB-D相機、超聲波等、機器人導航、相機標定、立體匹配、三維點雲、結構光(面/線/散斑)、機械臂抓取（2D/3D）、2D缺陷檢測、3D缺陷檢測、6D位姿估計、相位偏折術、Halcon、光場重建、攝影測量、陣列相機、偏振三維測量、光度立體視覺、激光雷達、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖、深度估計、Transformer、毫米波/激光雷達/視覺攝像頭傳感器、多傳感器標定、多傳感器融合、自動駕駛綜合群等、目標檢測、3D目標檢測、路徑規劃、軌跡預測、3D點雲、3D點雲分割、模型部署、車道線檢測、Occupancy、目標跟蹤、四旋翼建模、無人機飛控、求職、硬件選型、視覺產品落地、最新論文、3D視覺最新產品等綜合交流群。

添加v: dddvision，備註：研究方向學校/公司昵稱(如3D點雲清華小草莓), 小助理會拉你入群。