為了確保改正真的有變動,需要一個完整的測試用例來評估。
策略:使用參考標準答案評估模型輸出。
良好的評估具有以下特性:
- 貼近用戶的使用場景
- 包含大量測試用例,以覆蓋更大的統計范圍
- 易於自動化
![](https://news.xinpengboligang.com/upload/keji/20a16b802844f56224f914bf6fbc2137.jpeg)
檢測到差異,95%置信度所需的樣本大小
與標題答案進行對比
假設一個問題的正確回答是一組固定的答案。然後,我們可以使用模型來評估到底有多少模型輸出的答案是滿足了這個問題的預設結果。
![](https://news.xinpengboligang.com/upload/keji/369af0b0ebe1ad4c47e42133b73e0c8c.jpeg)
示例1
![](https://news.xinpengboligang.com/upload/keji/91b2e5cd254895680c5facc574414f8a.jpeg)
示例2
考慮兩者之間的重疊和矛盾,更加全面的評估模型的表
下面是更深入的官方演示案例:
這種基於模型的評估方法有很多不同的變化。想象一下,我們在評估一個問題的候選答案時,會考慮很多不同的情況。比如,我們會看 候選答案與 專傢標準答案 有多大程度的相似,還會考慮候選答案是否與 專傢標準答案 的任何部分相矛盾。這些都是評估方法的不同方面。
![](https://news.xinpengboligang.com/upload/keji/c9306de2f5915384c4827692b5e149bd.jpeg)
示例3
![](https://news.xinpengboligang.com/upload/keji/390205cb58c0f9f06482eaebafa432c3.jpeg)
示例4
解讀與總結
官方提供了兩種不同的場景,一種是與標題答案進行對比,另外一種則是考慮兩者之間的重疊和矛盾,更加全面的評估模型的表現,這兩種方式可以幫助 程序開發人員 從以下幾點中獲益。
- 深入的評估:不僅僅是簡單地比較模型輸出與專傢標準答案,還要考慮兩者之間的重疊和矛盾,從而更全面地評估模型的表現。
- 發現細微差異:通過跟蹤重疊和矛盾,可以更容易地發現模型輸出中的細微差異和潛在問題。
- 提高模型的準確性和可靠性:確保模型的輸出不僅與專傢標準答案相符,而且不與其矛盾,從而提高模型的準確性和可靠性。
- 通過這種評估方法,開發者可以更加深入地了解模型的表現,確保其輸出既準確又可靠。進而可以考慮是否進行優化。這一種非常好的測試手段。
在當下,掌握提示詞的技巧,利用提示詞幫助我們如何與機器互動,讓AI給我們提供真正的業務價值,是每一個人都需要思考的問題。