EvalsOpenAI 模型評估框架
Evals 是一個評估 OpenAI 模型的框架和一個開源的基準測試注冊表,你可以使用 Evals 來創(chuàng)建和運行評估:
- 使用數(shù)據(jù)集來生成提示信息
- 衡量 OpenAI 模型所提供的完成度的質(zhì)量
- 比較不同數(shù)據(jù)集和模型的性能
Evals 的目標是使建立一個評估盡可能簡單,同時編寫盡可能少的代碼。要開始使用,建議你依次按照以下步驟進行:
- 通讀本文檔,并遵循下面的設置說明。
- 了解如何運行現(xiàn)有的評價:run-evals.md
- 熟悉現(xiàn)有的評估模板:eval-templates.md
- 了解構(gòu)建評估的過程:build-eval.md
- 看一個實現(xiàn)自定義評價邏輯的例子:custom-eval.md。
設置
要運行評估,需要設置并指定您的 OpenAI API 密鑰。獲取 API 密鑰后,使用 OPENAI_API_KEY環(huán)境變量指定它。
下載評估
Evals 注冊表使用 Git-LFS 存儲,下載并安裝 LFS 后,可以通過以下方式獲取評估:
git lfs fetch --all git lfs pull
你可能只想為選擇的評估獲取數(shù)據(jù),則可以通過以下方式實現(xiàn):
git lfs fetch --include=evals/registry/data/${your eval}
git lfs pull
進行評估
如果您要創(chuàng)建評估,建議直接從 GitHub 克隆此倉庫并使用以下命令安裝要求:
pip install -e .
使用 -e,對 eval 所做的更改將立即反映出來,而無需重新安裝。
評論
圖片
表情
