加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 01.訓(xùn)練1.2萬(wàn)道數(shù)學(xué)題大模型監(jiān)督小模型訓(xùn)練
    • 02.過(guò)程監(jiān)督整體效果優(yōu)于結(jié)果監(jiān)督解決方案更多效果更好
    • 03.數(shù)學(xué)外224道問(wèn)題評(píng)估過(guò)程監(jiān)督效果更優(yōu)
    • 04.結(jié)語(yǔ):AI可解釋性研究亟需加速
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

OpenAI煉出最強(qiáng)數(shù)學(xué)解題模型,擊碎AI瞎說(shuō)的臭毛病

2023/06/02
1609
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

訓(xùn)練1萬(wàn)多道數(shù)學(xué)題后,OpenAIChatGPT的做數(shù)學(xué)題水平直線上升。

智東西6月1日?qǐng)?bào)道,凌晨,OpenAI官方博客發(fā)布新的研究進(jìn)展,在數(shù)學(xué)推理能力上,研究人員正在通過(guò)過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型揪出大型語(yǔ)言模型的邏輯錯(cuò)誤。

大型語(yǔ)言模型在執(zhí)行復(fù)雜多步推理能力上有了很大提高,但有時(shí)候仍會(huì)產(chǎn)生邏輯錯(cuò)誤,這種錯(cuò)誤通常被稱為“幻覺(jué)”。這也是阻礙通用人工智能時(shí)代到來(lái)的關(guān)鍵一步。而這種幻覺(jué)現(xiàn)在有望被結(jié)果監(jiān)督、過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型打破。

具體方法是,研究人員使用模型思維鏈的最終結(jié)果對(duì)結(jié)果監(jiān)督的獎(jiǎng)勵(lì)模型(ORM)進(jìn)行訓(xùn)練,而過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型(PRM)會(huì)接收思維鏈中每一步的反饋訓(xùn)練。過(guò)程監(jiān)督相比于結(jié)果監(jiān)督的優(yōu)勢(shì)在于,它會(huì)直接獎(jiǎng)勵(lì)遵循一致的思維鏈模型,并且因?yàn)檫^(guò)程中的每個(gè)步驟都受到了精確的監(jiān)督,能指出發(fā)生錯(cuò)誤的確切位置,其結(jié)果也更容易被人類解讀,因此可以更直接地獎(jiǎng)勵(lì)大型語(yǔ)言模型遵循人類認(rèn)可的思維鏈。

OpenAI的研究人員對(duì)結(jié)果監(jiān)督和過(guò)程監(jiān)督進(jìn)行了更詳細(xì)的比較,他們使用了更強(qiáng)大的基礎(chǔ)模型GPT-4、更多的人類反饋,并在MATH數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試。基于上述條件,研究人員證明了,過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型能解決MATH測(cè)試集代表性子集中78.2%的問(wèn)題。

01.訓(xùn)練1.2萬(wàn)道數(shù)學(xué)題大模型監(jiān)督小模型訓(xùn)練

在測(cè)試過(guò)程中,結(jié)果監(jiān)督可以在沒(méi)有人為干預(yù)的情況下提供,因?yàn)镸ATH數(shù)據(jù)集中的所有問(wèn)題都有可自動(dòng)檢查的答案。但過(guò)程監(jiān)督需要依靠人工數(shù)據(jù)標(biāo)注器來(lái)標(biāo)注模型生成的解決方案中每個(gè)步驟的重要性。

研究人員就在大規(guī)模和小規(guī)模兩種情況下進(jìn)行實(shí)驗(yàn),在大規(guī)模訓(xùn)練下,研究人員基于GPT-4進(jìn)行微調(diào),但這一情況下,過(guò)程監(jiān)督和獎(jiǎng)勵(lì)監(jiān)督的訓(xùn)練集數(shù)據(jù)沒(méi)有完全重合,無(wú)法直接比較。因此,研究人員對(duì)模型進(jìn)行了小規(guī)模訓(xùn)練以進(jìn)行直接比較。

為了降低人工反饋的成本,他們使用大型語(yǔ)言模型來(lái)監(jiān)督小型語(yǔ)言模型訓(xùn)練。在每個(gè)模型上,研究人員使用一個(gè)固定的模型來(lái)生成所有的解決方案,這個(gè)固定模型就是生成器。為了收集過(guò)程監(jiān)督數(shù)據(jù),研究人員向人類數(shù)據(jù)標(biāo)注器提供了大規(guī)模生成器采樣的數(shù)學(xué)問(wèn)題的解決方案步驟。

人類數(shù)據(jù)標(biāo)注器就會(huì)為每個(gè)步驟分配一個(gè)Positive、Negative、Neutral的標(biāo)簽,Positive代表該步驟正確、合理,Negative代表不正確、不合理,Neutral表示有歧義。Positive:這個(gè)問(wèn)題中,GPT-4在第7、8步時(shí)執(zhí)行猜測(cè),這也是大型語(yǔ)言模型容易產(chǎn)生幻覺(jué)的常見(jiàn)地方,即聲稱某個(gè)猜測(cè)是正確的,但這里沒(méi)有發(fā)生錯(cuò)誤:

Negative:下面這個(gè)問(wèn)題中,第七個(gè)步驟,GPT-4進(jìn)行了錯(cuò)誤的簡(jiǎn)化表達(dá),獎(jiǎng)勵(lì)模型指出了錯(cuò)誤:

Neutral:第13步中,GPT-4試圖通過(guò)組合相似的項(xiàng)來(lái)簡(jiǎn)化等式,它將“12x”正確移動(dòng)到了左邊,并進(jìn)行了組合,右邊的項(xiàng)沒(méi)有改變,獎(jiǎng)勵(lì)模型沒(méi)有辨認(rèn)出這個(gè)錯(cuò)誤:

研究人員將這一帶有標(biāo)簽的步驟數(shù)據(jù)集稱為PRM800K,包含針對(duì)12000個(gè)問(wèn)題,75000個(gè)解決方案以及80萬(wàn)步驟的標(biāo)簽。其中包含4500道MATH數(shù)據(jù)集中的問(wèn)題。

02.過(guò)程監(jiān)督整體效果優(yōu)于結(jié)果監(jiān)督解決方案更多效果更好

結(jié)果監(jiān)督的獎(jiǎng)勵(lì)模型中,研究人員從生成器中為每個(gè)問(wèn)題均勻采樣固定數(shù)量的答案,并訓(xùn)練獎(jiǎng)勵(lì)模型預(yù)測(cè)每個(gè)答案是正確或不正確。實(shí)際操作過(guò)程中,研究人員會(huì)通過(guò)自動(dòng)檢查最終答案來(lái)確定正確性,并使用獎(jiǎng)勵(lì)模型在最終token處的預(yù)測(cè)作為解決方案的總體得分。但這種自動(dòng)評(píng)分機(jī)制并不完全可靠,該機(jī)制無(wú)法對(duì)通過(guò)錯(cuò)誤推理得出正確答案的解決方案作出合理判斷。過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型會(huì)預(yù)測(cè)每個(gè)步驟中最后一個(gè)token的正確性。如下圖所示,過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型對(duì)同一問(wèn)題的兩個(gè)解決方案評(píng)分,左邊的解決方案正確,右邊不正確。綠色標(biāo)注是高分?jǐn)?shù),紅色標(biāo)注是低分?jǐn)?shù),獎(jiǎng)勵(lì)模型能正確識(shí)別右邊解決方案中的錯(cuò)誤位置。

研究人員使用來(lái)自MATH測(cè)試集的問(wèn)題來(lái)評(píng)估其過(guò)程監(jiān)督和結(jié)果監(jiān)督獎(jiǎng)勵(lì)模型,為每個(gè)問(wèn)題生成許多解決方案,然后選擇每個(gè)獎(jiǎng)勵(lì)模型排名最高的解決方案。下圖顯示了最終達(dá)到正確答案的所選解決方案的百分比,過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型整體表現(xiàn)更好,并且隨著研究人員對(duì)每個(gè)問(wèn)題的解決方案考慮范圍擴(kuò)大,其性能差距也會(huì)擴(kuò)大。因此,研究人員認(rèn)為,過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型更加可靠。

03.數(shù)學(xué)外224道問(wèn)題評(píng)估過(guò)程監(jiān)督效果更優(yōu)

研究人員還研究了主動(dòng)學(xué)習(xí)的影響,他們估計(jì)主動(dòng)學(xué)習(xí)可以使過(guò)程監(jiān)督的數(shù)據(jù)效率提高2.6倍。此外,為了探究獎(jiǎng)勵(lì)模型的泛化性,研究人員還對(duì)224道STEM問(wèn)題進(jìn)行了大規(guī)模的過(guò)程監(jiān)督、結(jié)果監(jiān)督評(píng)估,包括AP物理、AP微積分、AP化學(xué)、AMC10和AMC12考試,其中,過(guò)程監(jiān)督的表現(xiàn)優(yōu)于結(jié)果監(jiān)督。

并且過(guò)程監(jiān)督更有可能產(chǎn)生可解釋的推理,因?yàn)樗鼤?huì)鼓勵(lì)大型語(yǔ)言模型遵循人類確認(rèn)的邏輯思考過(guò)程。在某些情況下,更安全的人工智能系統(tǒng)方法會(huì)導(dǎo)致其性能下降,會(huì)產(chǎn)生對(duì)齊稅(alignment tax)成本,也就是大型語(yǔ)言模型要和人類的價(jià)值觀對(duì)齊,這在一定程度上會(huì)約束大型語(yǔ)言模型的想象力。OpenAI研究人員的結(jié)果表明,在數(shù)學(xué)領(lǐng)域,過(guò)程監(jiān)督實(shí)際上會(huì)產(chǎn)生負(fù)對(duì)齊稅。目前尚不清楚這些結(jié)果能否完全推廣到數(shù)學(xué)以外的領(lǐng)域,但研究人員認(rèn)為,如果這些結(jié)果具有普遍性,過(guò)程監(jiān)督就提供了一種比結(jié)果監(jiān)督更高效、更一致的方法。

04.結(jié)語(yǔ):AI可解釋性研究亟需加速

上個(gè)月,OpenAI用GPT-4來(lái)自動(dòng)解釋GPT-2的行為的研究打開(kāi)了大模型思考黑盒,此次,在數(shù)學(xué)推理能力上,研究人員又通過(guò)過(guò)程獎(jiǎng)勵(lì)模型使得大模型的思考過(guò)程變得可追蹤、可糾錯(cuò),這些研究都使得AI的可解釋性有了更大的進(jìn)步空間。

從結(jié)果來(lái)看,過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型的效果目前只在數(shù)學(xué)推理領(lǐng)域得到有效印證,但正如OpenAI的研究人員所說(shuō),目前的研究方向?qū)τ谶^(guò)程監(jiān)督在其他領(lǐng)域的影響以及未來(lái)的工作很重要。這些研究未來(lái)可以讓大模型在內(nèi)容生成、理解上展現(xiàn)出強(qiáng)大能力的同時(shí),其“思考過(guò)程”也能被檢測(cè)出是否有偏見(jiàn)或錯(cuò)誤,從而讓大模型的黑盒變得更加透明。

作者?|??程茜
編輯?|??心緣

 

相關(guān)推薦

電子產(chǎn)業(yè)圖譜