6月1日報道,今天凌晨,OpenAI官方博客發(fā)布新的研究進展,在數(shù)學推理能力上,研究人員正在通過過程監(jiān)督的獎勵模型揪出大型語言模型的邏輯錯誤。
大型語言模型在執(zhí)行復雜多步推理能力上有了很大提高,但有時候仍會產(chǎn)生邏輯錯誤,這種錯誤通常被稱為“幻覺”。這也是阻礙通用人工智能時代到來的關鍵一步。
而這種幻覺現(xiàn)在有望被結果監(jiān)督、過程監(jiān)督的獎勵模型打破。具體方法是,研究人員使用模型思維鏈的最終結果對結果監(jiān)督的獎勵模型(ORM)進行訓練,而過程監(jiān)督的獎勵模型(PRM)會接收思維鏈中每一步的反饋訓練。
過程監(jiān)督相比于結果監(jiān)督的優(yōu)勢在于,它會直接獎勵遵循一致的思維鏈模型,并且因為過程中的每個步驟都受到了精確的監(jiān)督,能指出發(fā)生錯誤的確切位置,其結果也更容易被人類解讀,因此可以更直接地獎勵大型語言模型遵循人類認可的思維鏈。
OpenAI的研究人員對結果監(jiān)督和過程監(jiān)督進行了更詳細的比較,他們使用了更強大的基礎模型GPT-4、更多的人類反饋,并在MATH數(shù)據(jù)集上進行了訓練和測試?;谏鲜鰲l件,研究人員證明了,過程監(jiān)督的獎勵模型能解決MATH測試集代表性子集中78.2%的問題。
一、訓練1.2萬道數(shù)學題,大模型監(jiān)督小模型訓練
在測試過程中,結果監(jiān)督可以在沒有人為干預的情況下提供,因為MATH數(shù)據(jù)集中的所有問題都有可自動檢查的答案。但過程監(jiān)督需要依靠人工數(shù)據(jù)標注器來標注模型生成的解決方案中每個步驟的重要性。
研究人員就在大規(guī)模和小規(guī)模兩種情況下進行實驗,在大規(guī)模訓練下,研究人員基于GPT-4進行微調(diào),但這一情況下,過程監(jiān)督和獎勵監(jiān)督的訓練集數(shù)據(jù)沒有完全重合,無法直接比較。因此,研究人員對模型進行了小規(guī)模訓練以進行直接比較。為了降低人工反饋的成本,他們使用大型語言模型來監(jiān)督小型語言模型訓練。
在每個模型上,研究人員使用一個固定的模型來生成所有的解決方案,這個固定模型就是生成器。為了收集過程監(jiān)督數(shù)據(jù),研究人員向人類數(shù)據(jù)標注器提供了大規(guī)模生成器采樣的數(shù)學問題的解決方案步驟。
人類數(shù)據(jù)標注器就會為每個步驟分配一個Positive、Negative、Neutral的標簽,Positive代表該步驟正確、合理,Negative代表不正確、不合理,Neutral表示有歧義。
Positive:這個問題中,GPT-4在第7、8步時執(zhí)行猜測,這也是大型語言模型容易產(chǎn)生幻覺的常見地方,即聲稱某個猜測是正確的,但這里沒有發(fā)生錯誤:
Negative:下面這個問題中,第七個步驟,GPT-4進行了錯誤的簡化表達,獎勵模型指出了錯誤:
Neutral:第13步中,GPT-4試圖通過組合相似的項來簡化等式,它將“12x”正確移動到了左邊,并進行了組合,右邊的項沒有改變,獎勵模型沒有辨認出這個錯誤:
研究人員將這一帶有標簽的步驟數(shù)據(jù)集稱為PRM800K,包含針對12000個問題,75000個解決方案以及80萬步驟的標簽。其中包含4500道MATH數(shù)據(jù)集中的問題。
二、過程監(jiān)督整體效果優(yōu)于結果監(jiān)督,解決方案更多效果更好
結果監(jiān)督的獎勵模型中,研究人員從生成器中為每個問題均勻采樣固定數(shù)量的答案,并訓練獎勵模型預測每個答案是正確或不正確。實際操作過程中,研究人員會通過自動檢查最終答案來確定正確性。并使用獎勵模型在最終token處的預測作為解決方案的總體得分。
但這種自動評分機制并不完全可靠,該機制無法對通過錯誤推理得出正確答案的解決方案作出合理判斷。
過程監(jiān)督的獎勵模型會預測每個步驟中最后一個token的正確性。如下圖所示,過程監(jiān)督的獎勵模型對同一問題的兩個解決方案評分,左邊的解決方案正確,右邊不正確。綠色標注是高分數(shù),紅色標注是低分數(shù),獎勵模型能正確識別右邊解決方案中的錯誤位置。
研究人員使用來自MATH測試集的問題來評估其過程監(jiān)督和結果監(jiān)督獎勵模型,為每個問題生成許多解決方案,然后選擇每個獎勵模型排名最高的解決方案。
下圖顯示了最終達到正確答案的所選解決方案的百分比,過程監(jiān)督獎勵模型整體表現(xiàn)更好,并且隨著研究人員對每個問題的解決方案考慮范圍擴大,其性能差距也會擴大。因此,研究人員認為,過程監(jiān)督獎勵模型更加可靠。
三、數(shù)學外224道問題評估,過程監(jiān)督效果更優(yōu)
研究人員還研究了主動學習的影響,他們估計主動學習可以使過程監(jiān)督的數(shù)據(jù)效率提高2.6倍。
此外,為了探究獎勵模型的泛化性,研究人員還對224道STEM問題進行了大規(guī)模的過程監(jiān)督、結果監(jiān)督評估,包括AP物理、AP微積分、AP化學、AMC10和AMC12考試,其中,過程監(jiān)督的表現(xiàn)優(yōu)于結果監(jiān)督。
并且過程監(jiān)督更有可能產(chǎn)生可解釋的推理,因為它會鼓勵大型語言模型遵循人類確認的邏輯思考過程。
在某些情況下,更安全的人工智能系統(tǒng)方法會導致其性能下降,會產(chǎn)生對齊稅(alignment tax)成本,也就是大型語言模型要和人類的價值觀對齊,這在一定程度上會約束大型語言模型的想象力。
OpenAI研究人員的結果表明,在數(shù)學領域,過程監(jiān)督實際上會產(chǎn)生負對齊稅。
目前尚不清楚這些結果能否完全推廣到數(shù)學以外的領域,但研究人員認為,如果這些結果具有普遍性,過程監(jiān)督就提供了一種比結果監(jiān)督更高效、更一致的方法。
結語:AI可解釋性研究亟需加速
上個月,OpenAI用GPT-4來自動解釋GPT-2的行為的研究打開了大模型思考黑盒,此次,在數(shù)學推理能力上,研究人員又通過過程獎勵模型使得大模型的思考過程變得可追蹤、可糾錯,這些研究都使得AI的可解釋性有了更大的進步空間。
從結果來看,過程監(jiān)督獎勵模型的效果目前只在數(shù)學推理領域得到有效印證,但正如OpenAI的研究人員所說,目前的研究方向?qū)τ谶^程監(jiān)督在其他領域的影響以及未來的工作很重要。這些研究未來可以讓大模型在內(nèi)容生成、理解上展現(xiàn)出強大能力的同時,其“思考過程”也能被檢測出是否有偏見或錯誤,從而讓大模型的黑盒變得更加透明。