60億擊敗1750億、驗(yàn)證勝過微調(diào):OpenAI發(fā)現(xiàn)GPT-3解決數(shù)學(xué)題,并非參數(shù)越大越好
視學(xué)算法報(bào)道
編輯:杜偉、陳
現(xiàn)在,OpenAI 的模型也具備解決小學(xué)數(shù)學(xué)應(yīng)用題的能力了。
比如問題:安東尼有 50 支鉛筆。他把 1/2 的鉛筆給了布蘭登,剩下的 3/5 鉛筆給了查理。他保留了剩下的鉛筆。問安東尼保留了多少支鉛筆?

論文地址:https://arxiv.org/pdf/2110.14168.pdf
數(shù)據(jù)集地址:https://github.com/openai/grade-school-math
Tim 種了 5 棵樹。他每年從每棵樹上收集 6 個(gè)檸檬。他十年能得到多少檸檬?







在訓(xùn)練集上對模型(生成器)進(jìn)行 2 個(gè) epoch 的微調(diào);
從生成器中為每個(gè)訓(xùn)練問題抽取 100 個(gè)完成樣本,并將每個(gè)解決方案標(biāo)記為正確或不正確;
在數(shù)據(jù)集上訓(xùn)練一個(gè)單一 epoch 的驗(yàn)證器。



??THE END?
轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)
投稿或?qū)で髨?bào)道:[email protected]

點(diǎn)個(gè)在看 paper不斷!
評論
圖片
表情
