作者丨1335@知乎（已授權）

來源丨https://zhuanlan.zhihu.com/p/680445139

編輯丨極市平臺

AAAI 2024 高分作：Offline-to-Online 強化學習算法 SO2！

極其簡潔的 Offline-to-Online (O2O) RL 算法 SO2，隻需兩個簡單 trick：使用加入噪聲的 action 來更新 Q 值增大 Q 值更新頻率，就可使 offline-to-online RL 領域的算法性能大幅度提升。

1. Halfcheetah 一騎絕塵：僅用 170K Env Steps 就可以在 Halfcheetah 環境上達到 1.3w 的累積回報，而 300K 則可以超過 1.6w 。強化學習社區嘗試訓練過 MuJoCo 環境的同學肯定深有感受：online RL 的最強算法 SAC, 一般需要 3M Env Steps 才能到 1.2w 的累積回報，之後無論再訓練多長時間，1.6w 水準的 Halfcheetah 幾乎都是遙不可及。

圖1. Halfcheetah 環境訓練曲線對比圖

2. MuJoCo 一招鮮吃遍天： 這種訓練方法在所有 MuJoCo 環境和數據集上都大幅領先其他 offline-to-online RL baseline 方法。

圖2. MuJoCo 不同環境和數據集上各類 O2O 算法的表現

論文題目： A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning

論文鏈接：
https://arxiv.org/abs/2312.07685

開源代碼鏈接：
https://github.com/opendilab/SO2

引言

離線強化學習（offline reinforcement learning/batch reinforcement learning）可謂是近年來最火熱也最重要的強化學習子領域，在各類決策任務中都展現出了驚艷的效果，相關的上下遊任務也都發展得十分迅速。其中，基於離線強化學習已經訓練收斂的策略，再繼續進行後續的在線學習，這種訓練方式就是本文研究的核心目標——offline-to-online reinforcement learning。

盡管目前這個方向已經出現了一些優秀的研究成果，但這些工作主要著眼於引入其他在線學習方法中的復雜設計，嘗試去解決 O2O 訓練中狀態-動作分佈飄移（shift）的問題。這些方法往往顯著加大算法復雜度，同時又面臨保障持續訓練穩定性的挑戰。

圖3. SO2 算法設計動機示意圖。通過兩個關鍵設計，SO2 顯著緩解了值函數估計問題

為了提供一種簡單統一的方法來釋放離線到在線強化學習的潛力，來自悉尼大學，香港中文大學，北京大學，以及上海人工智能實驗室（OpenDILab 團隊）等機構的研究者們從 Q 值估計的全新視角出發，結合現在廣泛使用的強化學習技術，實現了統一簡單高效的離線到在線的強化學習。此外，還提供了關於動作值函數估計偏差分析的相關方法，以及相應的評測分析，深入理解 O2O 領域的挑戰與機遇。

背景與貢獻

盡管離線強化學習的算法研究和應用落地取得了諸多進展，但離線到在線強化學習（Offline-to-Online RL）仍然面臨一系列困難和挑戰，甚至在訓練過程中常常出現完全崩潰的情況。具體來說，離線到在線強化學習的核心是在從離線預訓練到在線學習的過程中維持有效的策略和決策。在 offline RL 中，由於缺乏在線交互，Q 值（一種衡量在特定狀態下執行某動作的預期回報的指標）的估計容易產生偏差，而同時 online RL 需要準確的 Q 值來指導策略的優化和決策。因此，如何在離線到在線的訓練轉換中正確處理 Q 值估計，就成為 O2O RL 的關鍵問題。本文基於一個之前常常被忽視的視角，針對 O2O RL 中的 Q 值估計偏差問題進行深入研究和解決，並提出了一種新方法。具體來說：

1. 量化分析了離線強化學習訓練過程中 Q 值估計可能產生的偏差及其對在線強化學習階段的影響；

2. 提出了一種新算法 SO2，通過引入特定的技術手段減輕上文所述的偏差，提高 Q 值估計的準確性。這些技術包括對目標動作的擾動處理，以及提高 Q 值更新的頻率，以加速學習過程並減少由離線訓練帶來的偏差。

這項工作的重要性在於，它不僅提供了一種提高 O2O RL 性能的具體技術路徑，也為理解和解決 O2O RL 中的關鍵問題提供了新視角——Q 值估計的準確性。通過這項研究，可以更好地理解在離線到在線轉換過程中如何處理和優化 RL 算法，從而推動整個強化學習領域的發展。

Q 值估計誤差問題的分析與評估

和離線強化學習與在線強化學習領域類似，O2O RL 同樣面臨嚴重的 Q 值估計偏差問題，同時，由於離線數據集和在線樣本之間可能存在更嚴重的數據分佈漂移，該問題的復雜性更為棘手。因此，本文將針對離線到在線強化學習（O2O RL）中的 Q 值估計問題進行系統性的分析和評估。

圖4. 各類強化學習方法性能對比。其中 Online 方法已特殊標出。

首先，本小節會對 Q 值估計誤差問題進行詳細介紹。上面所示的圖 4 對比了多種標準 online RL 方法和使用在線微調的 offline RL 方法的性能。以標準 online RL 方法的結果為基線，可以觀察到這些直接使用在線微調的 offline RL 方法——包括 TD3-BC ，CQL，EDAC 和它們的 Loose 變體（減少保守估計的約束），在後續的在線學習中性能提升速度都顯著變慢。

換句話說，雖然這些離線強化學習算法在離線設置中表現出色，但在後續的在線學習期間性能提升緩慢甚至會出現退化。因此，可以觀察到 O2O RL 並不能簡單遷移之前的算法，其中的優化問題面臨著嚴峻挑戰。

為了分析關於 Q 值估計的問題，本文提出了兩個量化標準:

1. Q 值的標準化差異 (Normalized difference of the Q-value)

2. 基於 Q 值的肯德爾 τ 系數 (Kendall’s τ coefficient over Q-value)

首先，Q 值的標準化差異可以來衡量估計的 Q 值與真實 Q 值之間的差異。具體來說，實驗中先計算真實 Q 值和對應的估計 Q 值，其中真實 Q 值是基於當前策略收集的充分延長軌跡上實際獲得的回報來計算的，提供了真實 Q 值的準確反映，然後對兩者之間的差異進行標準化差異計算，從而提供每種強化學習方法 Q 值估計的誤差程度。

另外，為了突出在線 RL 算法與離線 RL 算法之間的差異，實驗中還從離線 RL 算法的標準化差異中減去在線 RL 基線（如 SAC）的標準化差異。因此，正的標準化差異意味著離線 RL 算法的 Q 值估計相對於在線基線有過高估計的傾向，反之則意味著低估。

圖5. 幾種 offline RL 算法 Q 值的標準化差異的對比圖

從圖 5 中可以觀察到 TD3-BC 和 CQL 通常會過高估計在線收集的未見狀態-動作對的 Q 值，而 EDAC 面臨著顯著的Q 值低估問題。

其次，基於 Q 值的肯德爾 τ 系數可以用來衡量估計的 Q 值的排序準確性。肯德爾 τ 系數（Kendall's τ coefficient）是一種用於衡量兩組數據之間排序相關性的統計方法。它評估的是兩個變量的排列順序之間的相似性。具體的計算原理如下：

1. 數據準備：

從預訓練的策略中回放多個 episode，收集狀態-動作對。
使用滑動窗口方法在每個 episode 中選擇狀態-動作對的集合，記為P_i，其中 i 表示窗口編號。

2. 計算估計的 Q 值和真實 Q 值：

對於每個集合 P_i 中的所有狀態-動作對，計算它們的估計 Q 值和真實 Q 值。

3. 計算肯德爾系數：

對每個集合 P_i ，計算肯德爾系數，記為 K_i。
計算所有集合的系數的平均值。
最終 τ 的值在-1到1之間，值為1表示完全正相關，-1表示完全負相關，0表示無相關。

通過肯德爾 τ 系數可以評估離線強化學習算法在估計 Q 值排序準確性方面的表現。較低的 τ 系數表明離線 RL 算法在 Q 值估計的排序準確性上明顯遜於在線 RL 算法，這可能導致訓練不穩定和性能提升緩慢。

圖6. 不同算法 Q 值的肯德爾 τ 系數對比

圖 6 中顯示 offline RL 算法的 τ 系數明顯低於 online RL算法（SAC），表明它們在評估不同狀態-動作對的相對質量方面並不夠準確。

上述的分析說明：雖然這些離線算法（CQL、TD3-BC和EDAC）在預訓練後表現出色，並為在線學習提供了良好的初始行為，但它們在不同環境和不同訓練設置下，由於 Q 值估計的偏差和排序不準確而導致性能提升緩慢且穩定性差。因此，如何獲得準確的 Q 值估計是 O2O RL 的重要瓶頸。

SO2 方法介紹

為了解決上文中分析的 Q 值估計問題，本文基於強化學習中廣泛使用的算法設計技巧，提出了兩種主要的解決方案：

擾動值更新（Perturbed Value Update, PVU）
增加Q值更新頻率

首先，擾動值更新（Perturbed Value Update，PVU）可以對目標動作進行額外的噪聲擾動，以平滑帶有尖峰的偏差 Q 值估計。這種方法防止智能體過度擬合於過去可能有效但不一定適用於新情況的特定動作。

通過引入帶噪聲的動作，鼓勵智能體在下一個狀態中探索不同的動作，減少高估偏差。換句話說，這種設計鼓勵智能體考慮一系列合理的動作，而不是固定在某一個看似最優的動作上，從而產生更準確的價值估計，減輕 online RL 中的價值估計偏差。其次，增加 Q 值更新頻率則是一種更自然的想法。對於存在偏差的 Q 值估計，自然需要適當增加更新頻率，以便快速收斂到正常水平。增加 Q 值和策略的更新頻率使學習過程更能響應新的數據。這導致更準確的價值估計和更快地收斂到最優策略。

這兩種技術共同提高了 Q 值函數估計的準確性，並進一步改善了在線學習期間的性能，具體的算法偽代碼如下所示：

圖7. SO2 算法偽代碼

實驗分析

圖8. MuJoCo 環境中 SO2 和其他算法的對比示意圖和表格

盡管算法設計非常簡單，但 SO2 算法卻可以在 O2O RL 問題中表現出非常強大的性能。上圖所示的學習曲線對比展示了在不同數量的訓練步驟下的性能，SO2 在樣本效率和漸近性能方面顯著優於所有基準。與其他算法相比，SO2 在利用少量樣本時表現出極高效率。同時在經過充分訓練後，也可以看到 SO2 在長期訓練中的優勢。

圖9. 各個算法在不同環境的 Q 值標準差

在圖 9 中，還可以觀察到在不同實驗條件下 SO2 表現為較低的 Q 值標準差，從而體現了SO2 性能收益和之前的 Q 值分析的一致性。

圖10. 基於隨機數據集的SO2與在線強化學習的對比

此外，圖 10 還表明即便使用隨機策略收集的離線訓練數據，SO2 仍然可以通過少量在線交互實現專傢級性能。這體現了離線到在線強化學習的巨大潛力，並不像模仿學習那樣需要大量的專傢數據。

圖11. Adroit 環境中各個算法的性能對比

圖12. SO2 算法和之前 O2O RL 算法的組合效果

同時，SO2 也展現出強大的擴展性，兼容性和泛化性。Adroit 環境中的實驗（圖11）仍然體現了 SO2 的優異性能。而圖 12 中的復合實驗則說明，SO2 算法可以組合應用到之前的各類 O2O 算法中，更加增強這些算法的最終效果。

展望

O2O RL仍有很多尚未解決的算法問題和應用挑戰，未來的工作將會繼續探索和擴展 Q 值估計在離線到在線強化學習（O2O RL）的實際應用。研究如何進一步提高 Q 值估計的準確性和效率，以更好地適應和解決實際應用中的挑戰。具體來說，如何進一步優化 Q 值估計方法，提高 Q 值估計的準確性和穩定性首當其沖。這可能包括開發新的算法框架，或對現有方法進行調整和優化。

其次，如何應用於更多場景和任務，將所提出的方法應用於更廣泛的環境和任務，以驗證其泛化能力和實用性，不僅僅局限於遊戲或模擬環境的應用，而是擴展到更多現實世界中的復雜和動態場景。最後，除了實證研究外，也還需要更深入的理論研究，對 Q 值估計的理論基礎進行更深入的探索和分析，以更好地理解其在不同決策場景下的行為和效果。

AAAI24｜SO2：從Q值估計的角度重新審視Offline to Online強化學習

引言

背景與貢獻

Q 值估計誤差問題的分析與評估

SO2 方法介紹

實驗分析

展望