亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

浪潮"源"AI大模型如何求解數學應用題

2022-07-07 16:19 5111

北京2022年7月7日 /美(mei)通社/ -- "源(yuan)1.0"大(da)模(mo)型是浪潮信息(xi)發布的中文巨量(liang)(liang)模(mo)型,參數量(liang)(liang)高達2457億,在中文語言(yan)能力理(li)解(jie)和生成(cheng)評測基準CUGE總榜中取(qu)得榜首,并獲得語言(yan)理(li)解(jie)(篇章級)、語言(yan)生成(cheng)、對話交互、多語言(yan)、數學(xue)推理(li)等5項評測最佳成(cheng)績。其中在數學(xue)推理(li)評測中,源(yuan)1.0大(da)模(mo)型完成(cheng)1000道(dao)小學(xue)數學(xue)應用題,以76.9的高分大(da)幅(fu)領(ling)先。

數(shu)學(xue)(xue)對邏輯和推(tui)理(li)能力有極強(qiang)的要求(qiu),以往大模型(xing)在數(shu)學(xue)(xue)領域表(biao)現(xian)欠佳。源(yuan)1.0為何能取得這(zhe)么好的成績?本文將介紹數(shu)學(xue)(xue)推(tui)理(li)任(ren)務(wu)的背(bei)景、研究現(xian)狀,以及(ji)源(yuan)1.0在數(shu)學(xue)(xue)推(tui)理(li)任(ren)務(wu)方面的解(jie)決方案和表(biao)現(xian)。

1. 數學單詞問題的研究背景及意義

數學單詞問(wen)題(ti),即Math Word Problem(MWP),其主要(yao)目標是根據自然語言文(wen)字描述(shu)的(de)內容(rong)解決(jue)相應的(de)數學問(wen)題(ti)。也就(jiu)是說,對(dui)于(yu)給(gei)定的(de)數學問(wen)題(ti),模型需要(yao)理解相關文(wen)字的(de)數學含義,并推理出正(zheng)確的(de)表達式。

一個(ge)典型(xing)的MWP示例(li)如下。

問題:"快車和慢車同時從相距450千米的兩城相對開出,4.5小時后兩車還相距90千米,快車和慢車的速度比為9:7,慢車每小時行多少千米?"
表達式:(450-90)/4.5*7/(9+7)
結果:35

不難發現,該題目(mu)除了要(yao)求(qiu)模型能夠理(li)解基本的(de)加減乘除法之外,還(huan)需要(yao)理(li)解什么(me)是(shi)比例問題。此(ci)外,若將問題中的(de)"相對(dui)(dui)開(kai)出"改為"相反方向開(kai)出",將會(hui)導致問題的(de)數學邏輯大相徑庭。如何(he)讓(rang)模型分辨出語言表達上的(de)差異,并正確地推理(li)出對(dui)(dui)應(ying)的(de)表達式是(shi)MWP任務的(de)基本要(yao)求(qiu)。

需要注意的(de)(de)(de)(de)是,在上面的(de)(de)(de)(de)MWP中(zhong)(zhong)(zhong),表(biao)達式(shi)中(zhong)(zhong)(zhong)所(suo)需的(de)(de)(de)(de)數(shu)(shu)字量均(jun)可以(yi)在問(wen)題(ti)中(zhong)(zhong)(zhong)找到(dao),但在某些情況(kuang)下,表(biao)達式(shi)中(zhong)(zhong)(zhong)所(suo)需要的(de)(de)(de)(de)數(shu)(shu)字量并不(bu)會全部包(bao)含在問(wen)題(ti)中(zhong)(zhong)(zhong)。例如,在含有分數(shu)(shu)的(de)(de)(de)(de)MWP示例中(zhong)(zhong)(zhong)(如下紅框(kuang)中(zhong)(zhong)(zhong)所(suo)示),需要根(gen)據題(ti)目中(zhong)(zhong)(zhong)的(de)(de)(de)(de)數(shu)(shu)學(xue)邏輯,在表(biao)達式(shi)中(zhong)(zhong)(zhong)額外添(tian)加相(xiang)應的(de)(de)(de)(de)數(shu)(shu)字量"1"。同樣(yang)的(de)(de)(de)(de)問(wen)題(ti)還常(chang)見(jian)于計算(suan)圓(yuan)的(de)(de)(de)(de)周長(chang)或面積時,需要額外添(tian)加數(shu)(shu)字量"3.14"。

問題:"一根電線長80米,第一次截去的全長的2/5,第二次截去了余下的1/4,這根電線還剩多少米?"
表達式:80*(1-2/5-(1-2/5)*1/4)
結果:36

毫無疑問,MWP任(ren)(ren)務(wu)給(gei)模(mo)型的(de)(de)語(yu)言理解能(neng)力和數學推理能(neng)力都帶來了極(ji)大的(de)(de)挑戰,如(ru)何(he)解決MWP任(ren)(ren)務(wu)也是(shi)NLP領域的(de)(de)研究熱點之一。

2. 數字單詞問題的研究現狀

實際上,直到2016年MWP的任務精度仍然比較有限。關于MWP任務在2016年之前的研究在此不作細述,相關綜述可參考論文:How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation (Huang et al., ACL 2016)

近幾年,借助DNN解決MWP任(ren)務(wu)的方(fang)法(fa)顯著提(ti)升了MWP任(ren)務(wu)精度(du),這些方(fang)法(fa)大致可(ke)以分為以下三類:基于(yu)(yu)seq2seq模型(xing)、基于(yu)(yu)seq2tree模型(xing)和基于(yu)(yu)預訓(xun)練(lian)模型(xing)。

2.1   基于seq2seq模型

該方法是由Wang Yan等學者[1]首次(ci)應用(yong)在(zai)(zai)MWP任(ren)(ren)務(wu)上,并在(zai)(zai)大規(gui)模(mo)(mo)多題(ti)型的(de)數(shu)據(ju)(ju)集(ji)(Math23K)上取(qu)得了顯著(zhu)的(de)效果(對(dui)于(yu)Math23K數(shu)據(ju)(ju)集(ji)將在(zai)(zai)后(hou)續內容(rong)中進行說明)。該方法(fa)本質上是(shi)采(cai)用(yong)Encoder-Decoder(enc-dec)結(jie)構直接(jie)完(wan)成(cheng)了從"問題(ti)"到"表達式"的(de)映(ying)射(she)。值(zhi)得一提(ti)的(de)是(shi),前述(shu)的(de)Math23K數(shu)據(ju)(ju)集(ji)規(gui)模(mo)(mo)較大題(ti)型較多(約(yue)22000道),是(shi)目前MWP任(ren)(ren)務(wu)評測的(de)benchmark。

此外(wai),通過設計不同的(de)Encoder和Decoder結構可以得到改進(jin)后的(de)seq2seq方法。不過令人(ren)驚訝的(de)是,Transformer結構的(de)enc-dec并(bing)未在(zai)Math23K數據集上表現出明顯的(de)優勢(shi);而采用LSTM結構作為enc-dec的(de)LSTMVAE方法表現最佳。

2.2   基于seq2tree模型

基于Seq2tree模型實際上是基于seq2seq模型的變種,簡單來說,就是將number-mapping后的表達式轉化為樹結構作為模型訓練的輸出(如圖1所示),由于父節點與子節點處的數學符號以及連接方式是固定的,這種方式能夠有效地限制表達式的多樣性。這里,表達式的多樣性可以理解為針對同一個問題可以列出不同的表達式,例如n1+n2-n3還可以寫成n2+n1-n3或者n1+(n2-n3)。

圖1 樹結構化的表達式生成示意[2]
圖(tu)1 樹結構化(hua)的表達式生(sheng)成示意[2]

在前述基礎下,基于seq2tree模型的(de)MWP任(ren)(ren)務(wu)解決方法應運(yun)而生,其核心思想是將原(yuan)先的(de)decoder被(bei)替換成了tree-based decoder。至(zhi)此,MWP任(ren)(ren)務(wu)解決思路似乎主要(yao)集中在如何替換encoder和decoder問題上。例(li)如,Wang Lei等學者又調整(zheng)了encoder結構,提出了Graph2tree的(de)方法并且在Math23K任(ren)(ren)務(wu)上精度高達75%。

2.3   基于預訓練模型

Wang Lei等學者[3]發現BERTGen和RoBERTGen(Dec:BERT、RoBERT;Enc:Transformer)在Math23K數據(ju)集上表現較為優秀(76.9%)。此外,他們(men)還驗證了GPT-2模型在Math23K數據(ju)集上的(de)表現(74.3%),結果稍遜于基(ji)于BERT模型的(de)方法,這可能是(shi)GPT-2模型結構(gou)的(de)原因(Decoder結構(gou))。

2.4   其他MWP任務解決方法

根據前述方法,可以看到的是encoder采用BERT模型較好,decoder采用tree-based方式較好,若將兩者結合形成BERT encoder + tree-based decoder[4],其在Math23K數據(ju)集上的精(jing)度(du)達到了驚人的84.4%,是目前Math23K任(ren)務的baseline。

此外,在眾多MWP任務解決方法中Recall and learn方法[5]是十分值得一提的(de)。該(gai)方(fang)法(fa)跳出(chu)了經典的(de)enc-dec結構,通(tong)過模擬人腦在解決問題時的(de)類比能力,推理(li)出(chu)數學(xue)問題的(de)表達(da)式,最終該(gai)方(fang)法(fa)在Math23K任務上的(de)精度能夠(gou)達(da)到82.3%。

3. "源1.0"大模型的MWP任務解決方案

需要(yao)指出的是(shi),盡管(guan)構(gou)建單(dan)個技能(neng)模(mo)型在一定程度(du)上能(neng)夠較(jiao)好地(di)完成(cheng)MWP任務,但現有技能(neng)模(mo)型絕大多數仍采用的是(shi)encoder-decoder結(jie)構(gou),針對類(lei)似decoder結(jie)構(gou)下(如GPT-2)的模(mo)型數值推理(li)能(neng)力(li)的研究仍然(ran)較(jiao)少。此外,從實現通(tong)(tong)用人工智能(neng)的目(mu)標來看,提(ti)升通(tong)(tong)用大模(mo)型的數值推理(li)能(neng)力(li)是(shi)十(shi)分必(bi)要(yao)的。

接下(xia)來,筆者將詳細介紹浪潮信息的(de)"源1.0"大模型(decoder結(jie)構)在(zai)Math23K任務上的(de)相關工作,希望能夠對提升(sheng)通用大模型的(de)數(shu)(shu)值推(tui)理能力有所啟發。"源1.0"大模型在(zai)數(shu)(shu)學推(tui)理能力方面目(mu)前位列中文語言(yan)能力評測基準CUGE榜首。

3.1   目標導向的問答式Prompt設計

Math23K的標準(zhun)數據樣例為(wei):

{
"text": "某班學生參加數學興趣小組,其中,參加的男生是全班人數的20%,參加的女生是全班人數的(2/7)多2人,不參加的人數比全班人數的(3/5)少5人,全班有多少人?",
"segmented_text": "某班 學生 參加 數學 興趣小組 , 其中 , 參加 的 男生 是 全班 人數 的 20% , 參加 的 女生 是 全班 人數 的 (2/7) 多 2 人 , 不 參加 的 人數 比 全班 人數 的 (3/5) 少 5 人 , 全班 有 多少 人 ?",
"equation": "x=(5-2)/(20%+(2/7)+(3/5)-1)",
"label": "35"
}

其(qi)中"text"和(he)"equation"分(fen)別對應(ying)了任務的(de)(de)問題和(he)表達式信息。在(zai)嘗試過各(ge)種prompt后,最終確定的(de)(de)prompt設計如下。這種prompt設計將原本的(de)(de)問題拆分(fen)成(cheng)(cheng)了題干和(he)待求(qiu)解問題("問:全班(ban)(ban)有(you)多(duo)少人")兩個(ge)部分(fen),這是(shi)由于"問:"后面的(de)(de)內容對表達式的(de)(de)生成(cheng)(cheng)十分(fen)關鍵。例如,"全班(ban)(ban)有(you)多(duo)少人"和(he)"全班(ban)(ban)女生有(you)多(duo)少人"所對應(ying)的(de)(de)表達式是(shi)完(wan)全不同的(de)(de)。

{
某班學生參加數學興趣小組,其中,參加的男生是全班人數的20%,參加的女生是全班人數的(2/7)多2人,不參加的人數比全班人數的(3/5)少5人,問:全班有多少人?答: x=(5-2)/(20%+(2/7)+(3/5)-1)
}

3.2   相似啟發式數據增強方法

Math23K數據集的(de)題(ti)(ti)型雖然較(jiao)為(wei)豐富,但題(ti)(ti)型分布并不均勻。例如(ru),涉及圖形(xing)周長(chang)、面積和體積類(lei)的(de)問題(ti)(ti)顯(xian)然比其他題(ti)(ti)目類(lei)型要少,為(wei)保(bao)證模(mo)型在各類(lei)數學題(ti)(ti)型上均有較(jiao)好的(de)表(biao)現,有必(bi)要將該類(lei)型的(de)題(ti)(ti)目擴充。

本文采用了Ape210K數據集[6]對Math23K訓(xun)(xun)練集(ji)進行擴充,Ape210K數(shu)據集(ji)是另一種(zhong)較為常用的(de)中(zhong)文應用數(shu)學(xue)題集(ji),其題型更(geng)為豐(feng)富且題量更(geng)大(訓(xun)(xun)練集(ji)約20萬道題)。然(ran)而(er),為保證(zheng)模型在Math23K測試集(ji)上有良好的(de)表現,并不能簡(jian)單地將(jiang)Math23K和Ape210K數(shu)據集(ji)混合在一起。為保證(zheng)數(shu)據增(zeng)(zeng)強(qiang)的(de)有效性,本文提出(chu)了一種(zhong)相似(si)啟發式數(shu)據增(zeng)(zeng)強(qiang)方法(如圖2所示(shi))。

該方法針對Math23K訓練(lian)集(ji)(ji)中(zhong)的每一道題,首先判斷是否屬于圖(tu)形(xing)周長、面積和體(ti)積類(lei)題目(mu)。若(ruo)屬于,則top-K取(qu)值為2,同時通過相(xiang)似題檢索從Ape210K中(zhong)召回(hui)對應的相(xiang)似題;若(ruo)不屬于,則top-K取(qu)值為1,同樣進行相(xiang)似題檢索。最后(hou),將找(zhao)到的相(xiang)似題添加至Math23K訓練(lian)集(ji)(ji)中(zhong),數據增強后(hou)的訓練(lian)集(ji)(ji)約(yue)包含42000道題。

圖2 相似啟發式數據增強方法
圖2 相似啟發式數據增(zeng)強方法

3.3   Reset-position-idreset-attention-mask設計

輸入(ru)到模型的(de)一個(ge)(ge)(ge)batch中通常包含多道應用(yong)題,且會出現截斷(duan)等問題。為避免(mian)不同(tong)題目(mu)(mu)(mu)和表(biao)達(da)式之(zhi)間相互影響,對(dui)模型進行reset-position-id和reset-attention-mask處理。圖3示意了(le)reset前后(hou)的(de)對(dui)比,采用(yong)了(le)[eod]對(dui)不同(tong)題目(mu)(mu)(mu)之(zhi)間做切割,在reset-pos-id之(zhi)前,其位置編碼(ma)(ma)按(an)照(zhao)從左到右的(de)順(shun)序排(pai)列;reset-pos-id之(zhi)后(hou),位置編碼(ma)(ma)按(an)照(zhao)單個(ge)(ge)(ge)題目(mu)(mu)(mu)進行順(shun)序排(pai)列。類似的(de),在reset-attn-mask之(zhi)前,掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)對(dui)應的(de)是batch尺寸的(de)下三角(jiao)矩(ju)(ju)陣(zhen);reset-attn-mask后(hou),原先的(de)掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)被拆分(fen)成若干(gan)小(xiao)的(de)掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen),每(mei)個(ge)(ge)(ge)小(xiao)掩(yan)碼(ma)(ma)矩(ju)(ju)陣(zhen)對(dui)應單個(ge)(ge)(ge)題目(mu)(mu)(mu)尺寸的(de)下三角(jiao)矩(ju)(ju)陣(zhen)。

圖3 reset-pos-id和reset-attn-mask前后對比(示意)
圖3 reset-pos-id和reset-attn-mask前后(hou)對(dui)比(示(shi)意)

4. 訓練參數及結果

訓(xun)練過程的主要參數設置如下。

表(biao)1 模型(xing)訓練部分(fen)參數

參數

數值

Seq-length

2048

Batch-size

256

Learning-rate

5e-6

Train-iters

400

在訓練了400個iteration后(hou),模型(xing)的loss收斂至0.39(圖4)。

圖4 模型loss曲線
圖4 模(mo)型loss曲線

之后,在(zai)Math23K測(ce)試(shi)集上對所提方(fang)(fang)法的(de)精度(du)進行了測(ce)試(shi),并與(yu)現有相關方(fang)(fang)法的(de)結果(guo)進行對比(bi)(表2)。不難看出(chu),與(yu)BERT、GPT-2以及(ji)CPM-2模型(xing)(xing)相比(bi),所提方(fang)(fang)法下的(de)"源1.0"大(da)模型(xing)(xing)在(zai)Math23K任務上的(de)精度(du)最高。

表2 源1.0模型與BERT、GPT等在Math23K測試集上的對比(相關結果見參考文獻[4]

模型名稱

Encoder-Decoder

Math23K精度(%

BERTGen

76.6

RoBERTGen

76.9

CPM-2

是(shi)

69.4

GPT-2

Decoder結(jie)構(gou)

74.3

1.0

Decoder結(jie)構

76.9

5. 總結與展望

為(wei)提(ti)升decoder結(jie)構下的(de)(de)通(tong)用大模(mo)型在MWP任務上的(de)(de)精度,本文提(ti)出(chu)了(le)(le)一種(zhong)目標導向的(de)(de)問答(da)式(shi)prompt設計(ji)方法(fa),該方法(fa)有利于引導模(mo)型建立(li)問題(ti)與表(biao)達式(shi)之間的(de)(de)準確對(dui)(dui)應關系;同時(shi)提(ti)出(chu)了(le)(le)一種(zhong)相(xiang)似啟發式(shi)數(shu)據增強方法(fa),通(tong)過(guo)相(xiang)似句召回的(de)(de)方式(shi)對(dui)(dui)數(shu)據集(ji)進行擴(kuo)充,克服了(le)(le)原有數(shu)據集(ji)中(zhong)題(ti)型分(fen)布不均勻(yun)的(de)(de)問題(ti);此外,采用了(le)(le)重置(zhi)位置(zhi)編碼和掩碼矩陣的(de)(de)方法(fa),解決了(le)(le)單個batch中(zhong)的(de)(de)題(ti)目之間相(xiang)互(hu)影響的(de)(de)問題(ti)。最后(hou),在Math23K數(shu)據集(ji)上驗證了(le)(le)所提(ti)方法(fa),結(jie)果證明了(le)(le)"源1.0"模(mo)型有很強的(de)(de)數(shu)學推理能力。

針對MWP任務,"源1.0"模(mo)型后續將開展的工作包括:

1.         合理(li)利用Number-mapping和tree結構的數據(ju)前處理(li),以及類似于recall and learn方法(fa)中的掩碼矩陣設計,進一步(bu)提高"源1.0"在MWP任務上(shang)生成答案精度。

2.         雖(sui)然(ran)"源(yuan)1.0"僅在Math23K任務上(shang)(shang)取得了(le)較好的(de)成績,且目(mu)前還不能解決(jue)全部的(de)MWP題(ti)型,但已經證明了(le)"源(yuan)1.0"模型具(ju)備了(le)較強的(de)數學推理(li)能力。如何(he)進一步挖掘"源(yuan)1.0"在MWP任務上(shang)(shang)的(de)潛力,以解決(jue)更(geng)為復雜(za)的(de)多元方程以及幾(ji)何(he)題(ti)型的(de)問(wen)題(ti),是我們后續準備繼續深入(ru)研(yan)究的(de)重(zhong)要(yao)方向。

參考文獻

[1] Yan Wang, Xiaojiang Liu, Shuming Shi (2017). Deep Neural Solver for Math Word Problems.
[2] Lei Wang, Yan Wang, Deng Cai, et al (2018). Translating a Math Word Problem to an Expression Tree.
[3] Yihuai Lan, Lei Wang, Qiyuan Zhang, et al (2021). MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers
[4] Zhenwen Liang, Jipeng Zhang, Lei Wang, et al (2021). MWP-BERT: Numeracy-Augmented Pre-training for Math Word Problem Solving
[5] Shifeng Huang, Jiawei Wang, Jiao Xu, Da Cao, and Ming Yang. (2021). Recall and Learn: A Memory-augmented Solver for Math Word Problems.
[6] Wei Zhao, Mingyue Shang, Yang Liu, et al (2020). Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems.

 

消息來源:浪潮信息
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection