浪潮"源"AI大模型如何求解數學應用題

浪潮信息

2022-07-07 16:19 5111

北京2022年7月7日 /美(mei)通社/ -- "源(yuan)1.0"大(da)模(mo)型是浪潮信息(xi)發布的中文巨量(liang)(liang)模(mo)型，參數量(liang)(liang)高達2457億，在中文語言(yan)能力理(li)解(jie)和生成(cheng)評測基準CUGE總榜中取(qu)得榜首，并獲得語言(yan)理(li)解(jie)（篇章級）、語言(yan)生成(cheng)、對話交互、多語言(yan)、數學(xue)推理(li)等5項評測最佳成(cheng)績。其中在數學(xue)推理(li)評測中，源(yuan)1.0大(da)模(mo)型完成(cheng)1000道(dao)小學(xue)數學(xue)應用題，以76.9的高分大(da)幅(fu)領(ling)先。

數(shu)學(xue)(xue)對邏輯和推(tui)理(li)能力有極強(qiang)的要求(qiu)，以往大模型(xing)在數(shu)學(xue)(xue)領域表(biao)現(xian)欠佳。源(yuan)1.0為何能取得這(zhe)么好的成績？本文將介紹數(shu)學(xue)(xue)推(tui)理(li)任(ren)務(wu)的背(bei)景、研究現(xian)狀，以及(ji)源(yuan)1.0在數(shu)學(xue)(xue)推(tui)理(li)任(ren)務(wu)方面的解(jie)決方案和表(biao)現(xian)。

1. 數學單詞問題的研究背景及意義

數學單詞問(wen)題(ti)，即Math Word Problem（MWP），其主要(yao)目標是根據自然語言文(wen)字描述(shu)的(de)內容(rong)解決(jue)相應的(de)數學問(wen)題(ti)。也就(jiu)是說，對(dui)于(yu)給(gei)定的(de)數學問(wen)題(ti)，模型需要(yao)理解相關文(wen)字的(de)數學含義，并推理出正(zheng)確的(de)表達式。

一個(ge)典型(xing)的MWP示例(li)如下。

問題："快車和慢車同時從相距450千米的兩城相對開出，4.5小時后兩車還相距90千米，快車和慢車的速度比為9：7，慢車每小時行多少千米？"
表達式：(450-90)/4.5*7/(9+7)
結果：35

不難發現，該題目(mu)除了要(yao)求(qiu)模型能夠理(li)解基本的(de)加減乘除法之外，還(huan)需要(yao)理(li)解什么(me)是(shi)比例問題。此(ci)外，若將問題中的(de)"相對(dui)(dui)開(kai)出"改為"相反方向開(kai)出"，將會(hui)導致問題的(de)數學邏輯大相徑庭。如何(he)讓(rang)模型分辨出語言表達上的(de)差異，并正確地推理(li)出對(dui)(dui)應(ying)的(de)表達式是(shi)MWP任務的(de)基本要(yao)求(qiu)。

需要注意的(de)(de)(de)(de)是，在上面的(de)(de)(de)(de)MWP中(zhong)(zhong)(zhong)，表(biao)達式(shi)中(zhong)(zhong)(zhong)所(suo)需的(de)(de)(de)(de)數(shu)(shu)字量均(jun)可以(yi)在問(wen)題(ti)中(zhong)(zhong)(zhong)找到(dao)，但在某些情況(kuang)下，表(biao)達式(shi)中(zhong)(zhong)(zhong)所(suo)需要的(de)(de)(de)(de)數(shu)(shu)字量并不(bu)會全部包(bao)含在問(wen)題(ti)中(zhong)(zhong)(zhong)。例如，在含有分數(shu)(shu)的(de)(de)(de)(de)MWP示例中(zhong)(zhong)(zhong)（如下紅框(kuang)中(zhong)(zhong)(zhong)所(suo)示），需要根(gen)據題(ti)目中(zhong)(zhong)(zhong)的(de)(de)(de)(de)數(shu)(shu)學(xue)邏輯，在表(biao)達式(shi)中(zhong)(zhong)(zhong)額外添(tian)加相(xiang)應的(de)(de)(de)(de)數(shu)(shu)字量"1"。同樣(yang)的(de)(de)(de)(de)問(wen)題(ti)還常(chang)見(jian)于計算(suan)圓(yuan)的(de)(de)(de)(de)周長(chang)或面積時，需要額外添(tian)加數(shu)(shu)字量"3.14"。

問題："一根電線長80米，第一次截去的全長的2/5，第二次截去了余下的1/4，這根電線還剩多少米？"
表達式：80*(1-2/5-(1-2/5)*1/4)
結果：36

毫無疑問，MWP任(ren)(ren)務(wu)給(gei)模(mo)型的(de)(de)語(yu)言理解能(neng)力和數學推理能(neng)力都帶來了極(ji)大的(de)(de)挑戰，如(ru)何(he)解決MWP任(ren)(ren)務(wu)也是(shi)NLP領域的(de)(de)研究熱點之一。

2. 數字單詞問題的研究現狀

實際上，直到2016年MWP的任務精度仍然比較有限。關于MWP任務在2016年之前的研究在此不作細述，相關綜述可參考論文：How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation (Huang et al., ACL 2016)

近幾年，借助DNN解決MWP任(ren)務(wu)的方(fang)法(fa)顯著提(ti)升了MWP任(ren)務(wu)精度(du)，這些方(fang)法(fa)大致可(ke)以分為以下三類：基于(yu)(yu)seq2seq模型(xing)、基于(yu)(yu)seq2tree模型(xing)和基于(yu)(yu)預訓(xun)練(lian)模型(xing)。

2.1 基于seq2seq模型

該方法是由Wang Yan等學者^[1]首次(ci)應用(yong)在(zai)(zai)MWP任(ren)(ren)務(wu)上，并在(zai)(zai)大規(gui)模(mo)(mo)多題(ti)型的(de)數(shu)據(ju)(ju)集(ji)（Math23K）上取(qu)得了顯著(zhu)的(de)效果（對(dui)于(yu)Math23K數(shu)據(ju)(ju)集(ji)將在(zai)(zai)后(hou)續內容(rong)中進行說明）。該方法(fa)本質上是(shi)采(cai)用(yong)Encoder-Decoder（enc-dec）結(jie)構直接(jie)完(wan)成(cheng)了從"問題(ti)"到"表達式"的(de)映(ying)射(she)。值(zhi)得一提(ti)的(de)是(shi)，前述(shu)的(de)Math23K數(shu)據(ju)(ju)集(ji)規(gui)模(mo)(mo)較大題(ti)型較多（約(yue)22000道），是(shi)目前MWP任(ren)(ren)務(wu)評測的(de)benchmark。

此外(wai)，通過設計不同的(de)Encoder和Decoder結構可以得到改進(jin)后的(de)seq2seq方法。不過令人(ren)驚訝的(de)是，Transformer結構的(de)enc-dec并(bing)未在(zai)Math23K數據集上表現出明顯的(de)優勢(shi)；而采用LSTM結構作為enc-dec的(de)LSTMVAE方法表現最佳。

2.2 基于seq2tree模型

基于Seq2tree模型實際上是基于seq2seq模型的變種，簡單來說，就是將number-mapping后的表達式轉化為樹結構作為模型訓練的輸出（如圖1所示），由于父節點與子節點處的數學符號以及連接方式是固定的，這種方式能夠有效地限制表達式的多樣性。這里，表達式的多樣性可以理解為針對同一個問題可以列出不同的表達式，例如n₁+n₂-n₃還可以寫成n₂+n₁-n₃或者n₁+(n₂-n₃)。

圖(tu)1 樹結構化(hua)的表達式生(sheng)成示意[2]

在前述基礎下，基于seq2tree模型的(de)MWP任(ren)(ren)務(wu)解決方法應運(yun)而生，其核心思想是將原(yuan)先的(de)decoder被(bei)替換成了tree-based decoder。至(zhi)此，MWP任(ren)(ren)務(wu)解決思路似乎主要(yao)集中在如何替換encoder和decoder問題上。例(li)如，Wang Lei等學者又調整(zheng)了encoder結構，提出了Graph2tree的(de)方法并且在Math23K任(ren)(ren)務(wu)上精度高達75%。

2.3 基于預訓練模型

Wang Lei等學者^[3]發現BERTGen和RoBERTGen（Dec：BERT、RoBERT；Enc：Transformer）在Math23K數據(ju)集上表現較為優秀（76.9%）。此外，他們(men)還驗證了GPT-2模型在Math23K數據(ju)集上的(de)表現（74.3%），結果稍遜于基(ji)于BERT模型的(de)方法，這可能是(shi)GPT-2模型結構(gou)的(de)原因（Decoder結構(gou)）。

2.4 其他MWP任務解決方法

根據前述方法，可以看到的是encoder采用BERT模型較好，decoder采用tree-based方式較好，若將兩者結合形成BERT encoder + tree-based decoder^[4]，其在Math23K數據(ju)集上的精(jing)度(du)達到了驚人的84.4%，是目前Math23K任(ren)務的baseline。

此外，在眾多MWP任務解決方法中Recall and learn方法^[5]是十分值得一提的(de)。該(gai)方(fang)法(fa)跳出(chu)了經典的(de)enc-dec結構，通(tong)過模擬人腦在解決問題時的(de)類比能力，推理(li)出(chu)數學(xue)問題的(de)表達(da)式，最終該(gai)方(fang)法(fa)在Math23K任務上的(de)精度能夠(gou)達(da)到82.3%。

3. "源1.0"大模型的MWP任務解決方案

需要(yao)指出的是(shi)，盡管(guan)構(gou)建單(dan)個技能(neng)模(mo)型在一定程度(du)上能(neng)夠較(jiao)好地(di)完成(cheng)MWP任務，但現有技能(neng)模(mo)型絕大多數仍采用的是(shi)encoder-decoder結(jie)構(gou)，針對類(lei)似decoder結(jie)構(gou)下（如GPT-2）的模(mo)型數值推理(li)能(neng)力(li)的研究仍然(ran)較(jiao)少。此外，從實現通(tong)(tong)用人工智能(neng)的目(mu)標來看，提(ti)升通(tong)(tong)用大模(mo)型的數值推理(li)能(neng)力(li)是(shi)十(shi)分必(bi)要(yao)的。

接下(xia)來，筆者將詳細介紹浪潮信息的(de)"源1.0"大模型（decoder結(jie)構）在(zai)Math23K任務上的(de)相關工作，希望能夠對提升(sheng)通用大模型的(de)數(shu)(shu)值推(tui)理能力有所啟發。"源1.0"大模型在(zai)數(shu)(shu)學推(tui)理能力方面目(mu)前位列中文語言(yan)能力評測基準CUGE榜首。

3.1 目標導向的問答式Prompt設計

Math23K的標準(zhun)數據樣例為(wei)：

{
"text": "某班學生參加數學興趣小組，其中，參加的男生是全班人數的20%，參加的女生是全班人數的(2/7)多2人，不參加的人數比全班人數的(3/5)少5人，全班有多少人？",
"segmented_text": "某班學生參加數學興趣小組，其中，參加的男生是全班人數的 20% ，參加的女生是全班人數的 (2/7) 多 2 人，不參加的人數比全班人數的 (3/5) 少 5 人，全班有多少人？",
"equation": "x=(5-2)/(20%+(2/7)+(3/5)-1)",
"label": "35"
}

其(qi)中"text"和(he)"equation"分(fen)別對應(ying)了任務的(de)(de)問題和(he)表達式信息。在(zai)嘗試過各(ge)種prompt后，最終確定的(de)(de)prompt設計如下。這種prompt設計將原本的(de)(de)問題拆分(fen)成(cheng)(cheng)了題干和(he)待求(qiu)解問題（"問：全班(ban)(ban)有(you)多(duo)少人"）兩個(ge)部分(fen)，這是(shi)由于"問："后面的(de)(de)內容對表達式的(de)(de)生成(cheng)(cheng)十分(fen)關鍵。例如，"全班(ban)(ban)有(you)多(duo)少人"和(he)"全班(ban)(ban)女生有(you)多(duo)少人"所對應(ying)的(de)(de)表達式是(shi)完(wan)全不同的(de)(de)。

{
某班學生參加數學興趣小組，其中，參加的男生是全班人數的20%，參加的女生是全班人數的(2/7)多2人，不參加的人數比全班人數的(3/5)少5人，問：全班有多少人？答: x=(5-2)/(20%+(2/7)+(3/5)-1)
}

3.2 相似啟發式數據增強方法

Math23K數據集的(de)題(ti)(ti)型雖然較(jiao)為(wei)豐富，但題(ti)(ti)型分布并不均勻。例如(ru)，涉及圖形(xing)周長(chang)、面積和體積類(lei)的(de)問題(ti)(ti)顯(xian)然比其他題(ti)(ti)目類(lei)型要少，為(wei)保(bao)證模(mo)型在各類(lei)數學題(ti)(ti)型上均有較(jiao)好的(de)表(biao)現，有必(bi)要將該類(lei)型的(de)題(ti)(ti)目擴充。

本文采用了Ape210K數據集^[6]對Math23K訓(xun)(xun)練集(ji)進行擴充，Ape210K數(shu)據集(ji)是另一種(zhong)較為常用的(de)中(zhong)文應用數(shu)學(xue)題集(ji)，其題型更(geng)為豐(feng)富且題量更(geng)大（訓(xun)(xun)練集(ji)約20萬道題）。然(ran)而(er)，為保證(zheng)模型在Math23K測試集(ji)上有良好的(de)表現，并不能簡(jian)單地將(jiang)Math23K和Ape210K數(shu)據集(ji)混合在一起。為保證(zheng)數(shu)據增(zeng)(zeng)強(qiang)的(de)有效性，本文提出(chu)了一種(zhong)相似(si)啟發式數(shu)據增(zeng)(zeng)強(qiang)方法（如圖2所示(shi)）。

該方法針對Math23K訓練(lian)集(ji)(ji)中(zhong)的每一道題，首先判斷是否屬于圖(tu)形(xing)周長、面積和體(ti)積類(lei)題目(mu)。若(ruo)屬于，則top-K取(qu)值為2，同時通過相(xiang)似題檢索從Ape210K中(zhong)召回(hui)對應的相(xiang)似題；若(ruo)不屬于，則top-K取(qu)值為1，同樣進行相(xiang)似題檢索。最后(hou)，將找(zhao)到的相(xiang)似題添加至Math23K訓練(lian)集(ji)(ji)中(zhong)，數據增強后(hou)的訓練(lian)集(ji)(ji)約(yue)包含42000道題。

圖2 相似啟發式數據增(zeng)強方法

3.3 Reset-position-id與reset-attention-mask設計

輸入(ru)到模型的(de)一個(ge)(ge)(ge)batch中通常包含多道應用(yong)題，且會出現截斷(duan)等問題。為避免(mian)不同(tong)題目(mu)(mu)(mu)和表(biao)達(da)式之(zhi)間相互影響，對(dui)模型進行reset-position-id和reset-attention-mask處理。圖3示意了(le)reset前后(hou)的(de)對(dui)比，采用(yong)了(le)[eod]對(dui)不同(tong)題目(mu)(mu)(mu)之(zhi)間做切割，在reset-pos-id之(zhi)前，其位置編碼(ma)(ma)按(an)照(zhao)從左到右的(de)順(shun)序排(pai)列；reset-pos-id之(zhi)后(hou)，位置編碼(ma)(ma)按(an)照(zhao)單個(ge)(ge)(ge)題目(mu)(mu)(mu)進行順(shun)序排(pai)列。類似的(de)，在reset-attn-mask之(zhi)前，掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)對(dui)應的(de)是batch尺寸的(de)下三角(jiao)矩(ju)(ju)陣(zhen)；reset-attn-mask后(hou)，原先的(de)掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)被拆分(fen)成若干(gan)小(xiao)的(de)掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)，每(mei)個(ge)(ge)(ge)小(xiao)掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)對(dui)應單個(ge)(ge)(ge)題目(mu)(mu)(mu)尺寸的(de)下三角(jiao)矩(ju)(ju)陣(zhen)。

圖3 reset-pos-id和reset-attn-mask前后(hou)對(dui)比（示(shi)意）

4. 訓練參數及結果

訓(xun)練過程的主要參數設置如下。

表(biao)1 模型(xing)訓練部分(fen)參數

參數	數值
Seq-length	2048
Batch-size	256
Learning-rate	5e-6
Train-iters	400

在訓練了400個iteration后(hou)，模型(xing)的loss收斂至0.39（圖4）。

圖4 模(mo)型loss曲線

之后，在(zai)Math23K測(ce)試(shi)集上對所提方(fang)(fang)法的(de)精度(du)進行了測(ce)試(shi)，并與(yu)現有相關方(fang)(fang)法的(de)結果(guo)進行對比(bi)（表2）。不難看出(chu)，與(yu)BERT、GPT-2以及(ji)CPM-2模型(xing)(xing)相比(bi)，所提方(fang)(fang)法下的(de)"源1.0"大(da)模型(xing)(xing)在(zai)Math23K任務上的(de)精度(du)最高。

表2 源1.0模型與BERT、GPT等在Math23K測試集上的對比（相關結果見參考文獻^[4]）

模型名稱	Encoder-Decoder	Math23K精度（%）
BERTGen	是	76.6
RoBERTGen	是	76.9
CPM-2	是(shi)	69.4
GPT-2	Decoder結(jie)構(gou)	74.3
源1.0	Decoder結(jie)構	76.9

5. 總結與展望

為(wei)提(ti)升decoder結(jie)構下的(de)(de)通(tong)用大模(mo)型在MWP任務上的(de)(de)精度，本文提(ti)出(chu)了(le)(le)一種(zhong)目標導向的(de)(de)問答(da)式(shi)prompt設計(ji)方法(fa)，該方法(fa)有利于引導模(mo)型建立(li)問題(ti)與表(biao)達式(shi)之間的(de)(de)準確對(dui)(dui)應關系；同時(shi)提(ti)出(chu)了(le)(le)一種(zhong)相(xiang)似啟發式(shi)數(shu)據增強方法(fa)，通(tong)過(guo)相(xiang)似句召回的(de)(de)方式(shi)對(dui)(dui)數(shu)據集(ji)進行擴(kuo)充，克服了(le)(le)原有數(shu)據集(ji)中(zhong)題(ti)型分(fen)布不均勻(yun)的(de)(de)問題(ti)；此外，采用了(le)(le)重置(zhi)位置(zhi)編碼和掩碼矩陣的(de)(de)方法(fa)，解決了(le)(le)單個batch中(zhong)的(de)(de)題(ti)目之間相(xiang)互(hu)影響的(de)(de)問題(ti)。最后(hou)，在Math23K數(shu)據集(ji)上驗證了(le)(le)所提(ti)方法(fa)，結(jie)果證明了(le)(le)"源1.0"模(mo)型有很強的(de)(de)數(shu)學推理能力。

針對MWP任務，"源1.0"模(mo)型后續將開展的工作包括：

1.   合理(li)利用Number-mapping和tree結構的數據(ju)前處理(li)，以及類似于recall and learn方法(fa)中的掩碼矩陣設計，進一步(bu)提高"源1.0"在MWP任務上(shang)生成答案精度。

2. 雖(sui)然(ran)"源(yuan)1.0"僅在Math23K任務上(shang)(shang)取得了(le)較好的(de)成績，且目(mu)前還不能解決(jue)全部的(de)MWP題(ti)型，但已經證明了(le)"源(yuan)1.0"模型具(ju)備了(le)較強的(de)數學推理(li)能力。如何(he)進一步挖掘"源(yuan)1.0"在MWP任務上(shang)(shang)的(de)潛力，以解決(jue)更(geng)為復雜(za)的(de)多元方程以及幾(ji)何(he)題(ti)型的(de)問(wen)題(ti)，是我們后續準備繼續深入(ru)研(yan)究的(de)重(zhong)要(yao)方向。

參考文獻

^{[1] Yan Wang, Xiaojiang Liu, Shuming Shi (2017). Deep Neural Solver for Math Word Problems.}^{[2] Lei Wang, Yan Wang, Deng Cai, et al (2018). Translating a Math Word Problem to an Expression Tree.}^{[3] Yihuai Lan, Lei Wang, Qiyuan Zhang, et al (2021). MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers}^{[4] Zhenwen Liang, Jipeng Zhang, Lei Wang, et al (2021). MWP-BERT: Numeracy-Augmented Pre-training for Math Word Problem Solving}^{[5] Shifeng Huang, Jiawei Wang, Jiao Xu, Da Cao, and Ming Yang. (2021). Recall and Learn: A Memory-augmented Solver for Math Word Problems.}^{[6] Wei Zhao, Mingyue Shang, Yang Liu, et al (2020). Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems.}