![]() |
北京2024年7月9日(ri) /美(mei)(mei)通社/ -- 今年五月(yue),在美(mei)(mei)國波士頓舉行的(de)(de)一年一度(du) THINK 大會上,IBM宣布(bu)了watsonx 平臺的(de)(de)幾(ji)項新的(de)(de)更(geng)新和新推出的(de)(de)數(shu)據與(yu)自動化功能,旨在使人工(gong)智能(AI)對企業而言更(geng)具開放(fang)性、成本(ben)效(xiao)益(yi)與(yu)靈(ling)活性。為了幫助(zhu)中(zhong)國客戶和合(he)作伙伴進一步了解這些新功能的(de)(de)業務(wu)價(jia)值,IBM中(zhong)國科(ke)技事(shi)業部的(de)(de)數(shu)據與(yu)人工(gong)智能資(zi)深技術專家吳敏(min)達撰文做了以下解讀。
IBM專家觀點: 硬幣的兩面
作者:吳敏達
IBM科技(ji)事業部 數(shu)據與人工智能資深技(ji)術(shu)專(zhuan)家
引言
IBM Think 是年度盛會,每年都會有令人興奮的新技術推出。作為一家在人工智能(AI)領域有著深厚積淀的百年企業,IBM在今年五月的 Think 大會上宣布了 watsonx 平臺上的新功能,并且在六月發布了這些(xie)新(xin)功能的產品和(he)版本。從這些(xie)新(xin)發布中我看到了硬(ying)幣的兩(liang)面,看到了IBM 在 AI 實踐中的成熟思考。
AI 從(cong)創新技(ji)(ji)術走向商業價值(zhi)需要全面整(zheng)體地通盤考慮,并不是單一技(ji)(ji)術就能解(jie)決的(de)(de)(de),這會(hui)包(bao)含很多的(de)(de)(de)兩面性(xing)問題,而這些(xie)兩面性(xing)又是相(xiang)輔相(xiang)成(cheng),最后構成(cheng)企業自(zi)己的(de)(de)(de)最佳實踐。比如,AI 技(ji)(ji)術要與(yu)咨詢服務(wu)相(xiang)輔相(xiang)成(cheng),重(zhong)塑利用(yong) AI 開展業務(wu);有效(xiao)的(de)(de)(de) AI 模型,需要安全可(ke)(ke)靠的(de)(de)(de)管(guan)控(kong),啟用(yong)可(ke)(ke)信任、透明(ming)且可(ke)(ke)解(jie)釋(shi)的(de)(de)(de)數據和 AI 工作流(liu)程(cheng)。
“此兩(liang)者同出而異(yi)名,同謂之(zhi)玄(xuan);玄(xuan)之(zhi)又玄(xuan),眾妙之(zhi)門”,只有把硬幣的(de)兩(liang)面(mian)充(chong)分結合,才能讓企業真正從(cong)生(sheng)成(cheng)式 AI 中獲益。本(ben)文試圖結合 Think 2024 帶來的(de)產品最新能力(li)來解剖這些兩(liang)面(mian)性,幫助理解 watsonx 解決方案(an)獨(du)特的(de)價值和魅力(li)。
分與合
企業(ye)級 AI 應用的(de)(de)(de)(de)未來在于開(kai)放和開(kai)源(yuan)(yuan),在過去一(yi)年(nian)中(zhong)可(ke)(ke)以(yi)看到國(guo)內外大(da)(da)模(mo)型(xing)(xing)百花齊放。社區(qu)開(kai)源(yuan)(yuan)可(ke)(ke)以(yi)讓大(da)(da)模(mo)型(xing)(xing)變(bian)得(de)更(geng)有活(huo)力,企業(ye)有更(geng)多(duo)的(de)(de)(de)(de)可(ke)(ke)供選擇的(de)(de)(de)(de)基礎大(da)(da)模(mo)型(xing)(xing),這是“分(fen)”的(de)(de)(de)(de)好處(chu)。但是硬幣的(de)(de)(de)(de)另一(yi)面,也(ye)要考慮(lv)“合(he)”的(de)(de)(de)(de)問題,需要讓社區(qu)方便地協作并更(geng)新現(xian)有的(de)(de)(de)(de)大(da)(da)模(mo)型(xing)(xing),而不(bu)是創建多(duo)個克隆,依然處(chu)于“分(fen)”的(de)(de)(de)(de)狀態。現(xian)在HuggingFace 上有超(chao)過兩萬個 llama 模(mo)型(xing)(xing)分(fen)支(zhi)(zhi),這也(ye)證(zheng)明缺少好的(de)(de)(de)(de)方法(fa)讓社區(qu)協作為大(da)(da)模(mo)型(xing)(xing)做出貢(gong)獻,可(ke)(ke)以(yi)想(xiang)像如(ru)果這兩萬個分(fen)支(zhi)(zhi)能合(he)作在一(yi)起,將會產生更(geng)強(qiang)大(da)(da)的(de)(de)(de)(de)模(mo)型(xing)(xing)。
其(qi)實這(zhe)個問題不僅(jin)僅(jin)在社區存(cun)在,企業應用也是一(yi)樣,一(yi)家公(gong)司希(xi)望跨部(bu)門(men)在企業內部(bu)做大模(mo)型的(de)迭代升級,希(xi)望利用內部(bu)獲(huo)取的(de)技能和知識(shi)進行(xing)更新(xin)。如(ru)(ru)何跨部(bu)門(men)內部(bu)獲(huo)取技能,重復使用技能,如(ru)(ru)果不解決“合”的(de)問題,各(ge)部(bu)門(men)用自己的(de)大模(mo)型各(ge)自為政,不僅(jin)成(cheng)本(ben)高,知識(shi)也無法共享。
在Think 2024大會上,IBM 和 紅帽聯合推出了 InstructLab 這一首創的模型對齊技術,這是圍繞大模型推動開源創新的革命性方法,可將開源社區的資源直接引入大語言模型。與此同時,watsonx.ai 也最新引入 InstructLab 來解決“分”與“合”的問題,亮(liang)點(dian)是(shi)易于理解、結構良好的(de)(de)分(fen)(fen)類(lei)(lei)法,它(ta)是(shi)一(yi)個(ge)根據共享特征或關(guan)系將實體分(fen)(fen)類(lei)(lei)和(he)組織為層次類(lei)(lei)別的(de)(de)分(fen)(fen)類(lei)(lei)樹(shu)。 InstructLab 分(fen)(fen)為三個(ge)主要分(fen)(fen)支:知識、核心(xin)技能和(he)組合技能。 例如,在這(zhe)個(ge)企(qi)業(ye)財務(wu)領域知識的(de)(de)例子中,企(qi)業(ye)可以(yi)(yi)自(zi)己添加自(zi)己的(de)(de)知識分(fen)(fen)類(lei)(lei),葉(xie)節點(dian)就是(shi)企(qi)業(ye)自(zi)己的(de)(de)知識文(wen)檔(dang),可以(yi)(yi)是(shi)手冊等文(wen)檔(dang)。用分(fen)(fen)類(lei)(lei)驅動的(de)(de)方法取代了原來在“分(fen)(fen)”時(shi)候(hou)的(de)(de)隨(sui)機選擇,通(tong)過關(guan)注每個(ge)葉(xie)節點(dian)內的(de)(de)特定(ding)企(qi)業(ye)示例,從而保(bao)證“合”的(de)(de)多樣性和(he)模型質量。
在 watsonx.ai 使用(yong) InstructLab 有四個步驟:首先選擇合適的(de)大模型進(jin)行(xing)嘗試,找(zhao)到不足的(de)知識(shi)或技能(neng),并可以通過模型的(de)訓練(lian)分類(lei)法標簽看(kan)到知識(shi)分類(lei)和每個分類(lei)的(de)知識(shi)問(wen)答示(shi)例。比如以下(xia)圖示(shi)的(de)例子里看(kan)到的(de)是有關 IBM 歷史(shi)的(de)知識(shi)以及在知識(shi)分類(lei)的(de)位置。
然后(hou)添加知(zhi)識或(huo)技能,并生成(cheng)訓(xun)練數(shu)據。訓(xun)練數(shu)據立足(zu)于源材料,根(gen)據與(yu)新主題相關的(de)特定文檔(dang)、手冊或(huo)書籍生成(cheng)問題和(he)答(da)案,這確保了信(xin)息準確且(qie)來源可靠(kao)。在(zai)評估(gu)和(he)驗(yan)證階(jie)段(duan),模型充當評估(gu)器,檢查生成(cheng)的(de)響應是否忠實于原始材料。 這樣(yang)就能保持新知(zhi)識的(de)完整性(xing)和(he)準確性(xing),最后(hou)再學習新的(de)知(zhi)識和(he)技能“合(he)”成(cheng)新的(de)模型。
解決“分”與“合”的(de)問題,可以幫助(zhu)企業(ye)的(de)大(da)語言模(mo)型與最新(xin)的(de)技能(neng)和知(zhi)(zhi)識(shi)保(bao)持同步,InstructLab 可以幫助(zhu)企業(ye)獲得最新(xin)的(de)社區貢獻技能(neng)并保(bao)持最新(xin)狀(zhuang)態(tai)。很多企業(ye)希(xi)望(wang)了解訓練大(da)型語言模(mo)型需(xu)要做些(xie)什么,以便(bian)能(neng)夠更(geng)有效地調整模(mo)型,watsonx.ai 分類法探索(suo)器可以幫助(zhu) AI 開發人員了解訓練模(mo)型所(suo)需(xu)的(de)技能(neng)和知(zhi)(zhi)識(shi)結構,并能(neng)夠輕松識(shi)別差距。
IBM watsonx Code Assistant for Z 使用 InstructLab 對 COBOL 編(bian)程語言轉 Java 進行訓練相較于傳統方法訓練,從(cong)原(yuan)來需要9個月、14次迭代的過(guo)程減少(shao)為 1周(zhou)、1次迭代,通(tong)過(guo)這一方法,代碼轉化效能提(ti)升(sheng)了20%。
縱與橫
企(qi)(qi)業從生成式(shi) AI 的(de)(de)試驗(yan)階(jie)段轉向生產階(jie)段, 通常(chang)有“縱”與“橫”兩種(zhong)消(xiao)費模式(shi):“縱”是從應用(yong)出(chu)發,企(qi)(qi)業采用(yong)預打包的(de)(de)AI 解(jie)決方(fang)案;“橫”是從平臺(tai)出(chu)發,企(qi)(qi)業基于(yu)工具平臺(tai)來構(gou)建自有 AI 應用(yong)。
人工智能助手就是為“縱”的需求而生的,是針對企業最關注的特定領域量身定制的開箱即用的應用:代碼現代化(hua)應用(yong) watsonx Code Assistant、重(zhong)塑客戶服務的(de)應用(yong) watsonx Assistant、工作流程自(zi)動化(hua)應用(yong) watsonx Ochestrate 和智能對答(da)業務分(fen)析應用(yong) watsonx BI Assistant。通過部署人工智能助(zhu)手,企業可以利用(yong)自(zi)然語言理解和機器(qi)學習(xi)技(ji)術來自(zi)動化(hua)業務流程,將(jiang)各(ge)種(zhong)數據轉(zhuan)化(hua)為個(ge)性化(hua)的(de)見解和及時的(de)自(zi)動化(hua)操(cao)作,從而(er)為團(tuan)隊(dui)提(ti)供所需的(de)專業知識,達成更高(gao)水平(ping)的(de)績效,包括(kuo)更快回應和解決客服問(wen)題,提(ti)高(gao)開(kai)發人員工作效率等(deng)。
watsonx BI Assistant 是最新推出(chu)的(de)人工智能(neng)業務(wu)分(fen)析(xi)助(zhu)手,提供(gong)真正的(de)自(zi)助(zhu)分(fen)析(xi)同時保持數據一(yi)致(zhi)性(xing)、治(zhi)理(li)和(he)可(ke)組合的(de)全(quan)棧解決方(fang)案。它的(de)底層(ceng)(ceng)是接(jie)受(shou)過企業相關內容訓練(lian)和(he)可(ke)信的(de)大模(mo)型(xing);語義(yi)自(zi)動化層(ceng)(ceng)可(ke)以(yi)自(zi)動理(li)解數據并構建(jian)語義(yi)模(mo)型(xing),根(gen)據值得信賴且經過行(xing)業驗證的(de)業務(wu)詞匯表訓練(lian)大模(mo)型(xing)以(yi)豐(feng)富元(yuan)數據的(de)語義(yi)。指(zhi)標目錄定(ding)義(yi)并發布分(fen)析(xi)指(zhi)標,能(neng)夠提取第三方(fang)數據模(mo)型(xing)和(he)語義(yi)層(ceng)(ceng)中定(ding)義(yi)的(de)指(zhi)標。最后以(yi)自(zi)然(ran)語言對話方(fang)式,零學習(xi)曲線的(de)體驗為業務(wu)用戶提供(gong)高級分(fen)析(xi)和(he)個(ge)性(xing)化洞察的(de)能(neng)力。
比如提(ti)問(wen):“今(jin)年每(mei)個(ge)市場(chang)所有產(chan)品的收入是多少?”,watsonx 助手不(bu)僅能給(gei)出數據(ju)和報(bao)表,還能給(gei)出洞(dong)察:“新款(kuan) Tablet-5 出人意料地增(zeng)長(chang)了 10%,英(ying)國市場(chang)增(zeng)長(chang)了 15%”,最后會根據(ju)數據(ju)給(gei)出行動(dong)指導:“建議將資(zi)源(yuan)轉移到這(zhe)些增(zeng)長(chang)領域”。
watsonx Code Assistant 是不(bu)斷發(fa)展的(de)(de)(de)一系列(lie)代碼(ma)助手(shou),均(jun)由專(zhuan)為(wei)代碼(ma)生成而設計的(de)(de)(de) IBM Granite 模型(xing)提供支持,不(bu)僅有(you)廣泛的(de)(de)(de)客戶采(cai)用,而且 IBM內部也利用該(gai)能力進(jin)行更有(you)效地進(jin)行軟件開發(fa)。適(shi)用于(yu) Ansible Lightspeed、主(zhu)機的(de)(de)(de) COBOL和 Java 的(de)(de)(de)代碼(ma)助手(shou),因(yin)為(wei)專(zhuan)注所以專(zhuan)業,開箱(xiang)即用地提供基于(yu)特(te)定編程語言的(de)(de)(de)預訓練模型(xing),以確保代碼(ma)生成的(de)(de)(de)可信和準確。
watsonx 最核心的產品集watsonx.data、watsonx.ai、watsonx.governance 就是解決“橫”的需求,提供(gong)完整(zheng)的(de)平(ping)(ping)臺工具。企(qi)業(ye)可(ke)以使用 wasonx 平(ping)(ping)臺根(gen)據特定業(ye)務數據、專業(ye)知識對模(mo)型進行調(diao)整(zheng)。隨(sui)著時間(jian)的(de)推移,它變得(de)(de)越(yue)來(lai)越(yue)專業(ye),對業(ye)務也(ye)越(yue)來(lai)越(yue)有(you)價值(zhi)。由于企(qi)業(ye)可(ke)以控制平(ping)(ping)臺、 流程和數據,結合強有(you)力的(de)人工智能(neng)治(zhi)理(li)能(neng)力,企(qi)業(ye)累(lei)積的(de)價值(zhi)隨(sui)時間(jian)推移變得(de)(de)越(yue)來(lai)越(yue)大。
在實際的(de)(de)企業自己的(de)(de)最佳實踐(jian)中,“縱”與“橫”往往會交錯在一起(qi),watsonx 在打造這一體系的(de)(de)時候也(ye)是(shi)(shi)采用(yong)同樣的(de)(de)技術架構(gou),每個人(ren)(ren)工智(zhi)(zhi)能(neng)(neng)助手都(dou)是(shi)(shi)構(gou)建在 watsonx 平(ping)臺上的(de)(de)應(ying)用(yong)程(cheng)序,這使得(de)企業在任何階段都(dou)能(neng)(neng)夠(gou)無縫疊加應(ying)用(yong)或平(ping)臺的(de)(de)能(neng)(neng)力。最終企業要無感知地應(ying)用(yong)人(ren)(ren)工智(zhi)(zhi)能(neng)(neng),SDK 和 API 也(ye)是(shi)(shi)很重要的(de)(de)環節,所有的(de)(de)人(ren)(ren)工智(zhi)(zhi)能(neng)(neng)都(dou)是(shi)(shi)嵌入式的(de)(de),“縱”與“橫”的(de)(de)體系中間是(shi)(shi)通(tong)過生態系統(tong)整合(he)在一起(qi)的(de)(de)。
知與行
企業采用人工智能技術的目的是運用,所以“知”“行”合一變得尤為重要。 在大模型時代,企業的大模型是數據的表現形式,這是人工智能模型的本質,也是企業的競爭優勢,不要外包它,而應該保護它。模型和數據都是企業最重要的資產,IBM Knowledge Catalog 就是“知”的部分:它是(shi) AI 時代的智能數據目錄,可幫助(zhu)企(qi)業(ye)采取智能自(zi)助(zhu)的方式發現(xian)數據、模型等。
Knowledge Catalog 最新采(cai)用(yong)大模型能力來豐富元數據(ju)以(yi)實現分類自動化,生成數據(ju)描(miao)述以(yi)解釋(shi)數據(ju)屬性和值,生成數據(ju)名稱并將業務(wu)術語(yu)映射到列,可以(yi)通過對話(hua)和搜(sou)索進行知(zhi)識目錄中的數據(ju)查找和操作。
最新發布 IBM Data Product Hub 是“行”的部分:它是數據和模型資產消費解決方案,通過簡化企業(ye)內部生(sheng)(sheng)產者(zhe)和消費者(zhe)之(zhi)間的(de)數(shu)(shu)據(ju)(ju)(ju)產品(pin)共享,幫助加速(su)企業(ye)實現數(shu)(shu)據(ju)(ju)(ju)驅動的(de)成果。采用“將數(shu)(shu)據(ju)(ju)(ju)作為產品(pin)進行(xing)管理”的(de)方法(fa),數(shu)(shu)據(ju)(ju)(ju)所(suo)有者(zhe)和數(shu)(shu)據(ju)(ju)(ju)管理員(yuan)等數(shu)(shu)據(ju)(ju)(ju)生(sheng)(sheng)產者(zhe)將能夠(gou)管理和發(fa)布(bu)數(shu)(shu)據(ju)(ju)(ju)產品(pin)(數(shu)(shu)據(ju)(ju)(ju)集、報(bao)表、模型、代碼和定制的(de)數(shu)(shu)據(ju)(ju)(ju)衍生(sheng)(sheng)品(pin)集合)。 這些數(shu)(shu)據(ju)(ju)(ju)產品(pin)易(yi)于發(fa)現、管理和可(ke)重用,確保業(ye)務(wu)分析師、業(ye)務(wu)線用戶、數(shu)(shu)據(ju)(ju)(ju)科學(xue)家和其他數(shu)(shu)據(ju)(ju)(ju)消費者(zhe)可(ke)以迅速(su)找到并使用。
IBM Data Product Hub 從(cong) IBM Knowledge Catalog 導入(ru)數(shu)(shu)(shu)據(ju)(ju)(ju)資產,并將其打包(bao)以(yi)供整(zheng)個(ge)(ge)企業的(de)(de)自助(zhu)服(fu)務(wu)使用,并管(guan)理整(zheng)個(ge)(ge)數(shu)(shu)(shu)據(ju)(ju)(ju)產品(pin)(pin)生命周期,從(cong)數(shu)(shu)(shu)據(ju)(ju)(ju)產品(pin)(pin)的(de)(de)加(jia)入(ru)到報(bao)廢。新增的(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)合同(tong)定義了包(bao)含條(tiao)(tiao)款和(he)(he)條(tiao)(tiao)件以(yi)及服(fu)務(wu)水平協議的(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)共享(xiang)協議,將為數(shu)(shu)(shu)據(ju)(ju)(ju)生產者和(he)(he)數(shu)(shu)(shu)據(ju)(ju)(ju)消費者提(ti)供相互保證(zheng),確(que)保數(shu)(shu)(shu)據(ju)(ju)(ju)以(yi)合規的(de)(de)方(fang)(fang)式(shi)共享(xiang)和(he)(he)使用,從(cong)而(er)在(zai)數(shu)(shu)(shu)據(ju)(ju)(ju)交(jiao)換過程中融入(ru)信任。整(zheng)個(ge)(ge)方(fang)(fang)案采用生成(cheng)式(shi)人工智(zhi)能技術來加(jia)速數(shu)(shu)(shu)據(ju)(ju)(ju)產品(pin)(pin)的(de)(de)發現、創建(jian)和(he)(he)消費。
通(tong)過“知”“行”合(he)一,可(ke)以(yi)根(gen)據(ju)不同的場景,通(tong)過文件、API 和自然語言(yan)查詢(xun)等方法自動向業務(wu)(wu)用戶(hu)交付數(shu)(shu)據(ju)產(chan)品(pin)(pin)(pin),從而更快地 AI 在企(qi)業大(da)(da)規模(mo)應用,產(chan)生業務(wu)(wu)價值。可(ke)以(yi)在企(qi)業內外實現大(da)(da)規模(mo)的數(shu)(shu)據(ju)共享,為業務(wu)(wu)用戶(hu)構建(jian)單一入口,以(yi)便(bian)瀏(liu)覽整個企(qi)業的數(shu)(shu)據(ju)產(chan)品(pin)(pin)(pin),形(xing)成真(zhen)正的數(shu)(shu)字化(hua)“超級”市場。“爾來(lai)看此花時”,一旦找(zhao)到精選的穩(wen)定數(shu)(shu)據(ju)產(chan)品(pin)(pin)(pin),“則此花顏色(se)一時明白起來(lai)”。
總結
企(qi)業廣(guang)泛采用人(ren)工智能(neng)(neng)的(de)時(shi)代已經到來,AI 正從企(qi)業內部的(de)小型實驗試點轉向大規模實施,但(dan)這是(shi)(shi)(shi)馬拉(la)松(song)長跑(pao),而不(bu)是(shi)(shi)(shi)百米沖刺(ci),在過程中需要從不(bu)同(tong)的(de)維度循序漸進地迭代展開(kai)。 具(ju)體實踐中會遇到很(hen)多(duo)“硬幣(bi)”的(de)兩(liang)面,本文拋磚引玉談到了“分”與(yu)“合”、“縱”與(yu)“橫(heng)”、“知(zhi)”與(yu)“行(xing)”。在數據(ju)和人(ren)工智能(neng)(neng)項目(mu)中還(huan)碰到更多(duo)的(de)兩(liang)面,例如:“虛”與(yu)“實”:數據(ju)是(shi)(shi)(shi)邏(luo)輯的(de)集中(“虛”: Data Virtualization)還(huan)是(shi)(shi)(shi)物理的(de)集中(“實”:watsonx.data);“動(dong)”與(yu)“靜”:管道實時(shi)可觀測(“動(dong)”:Databand)還(huan)是(shi)(shi)(shi)數據(ju)血緣和沿襲(xi)(“靜”:Manta),等等。
作(zuo)為數據和人工智能(neng)的領導者(zhe),IBM 不僅服務于眾多(duo)(duo)企業(ye)客(ke)戶,而且自(zi)身也在利用生成式人工智能(neng)進(jin)行著改變(bian)。隨著 watsonx 產品系列(lie)每季度的迭(die)代更新和發展(zhan),越來越多(duo)(duo)的硬幣兩(liang)面會(hui)被(bei)注意(yi)到,并統一在 watsonx 中:“夫道一而已矣”。IBM 愿與您攜手,以(yi)開放與創新共參 AI 之道!
作者簡介:吳敏達是(shi) The Open Group 卓越級技(ji)術(shu)(shu)專(zhuan)家(Distinguished Technical Specialist),同時擁有(you)計算機技(ji)術(shu)(shu)與軟件專(zhuan)業系統架構設計師技(ji)術(shu)(shu)資格。他(ta)現在是(shi) IBM 科技(ji)事業部數據與人工智(zhi)能資深技(ji)術(shu)(shu)專(zhuan)家,擁有(you) 20 多年數據分析軟件相關技(ji)術(shu)(shu)經驗,是(shi) IBM 認(ren)證的大(da)數據架構師和(he) Watson 開發(fa)者(zhe),專(zhuan)長是(shi)大(da)數據、人工智(zhi)能等(deng)領域。他(ta)是(shi) IBM Developer 的大(da)師級作(zuo)(zuo)者(zhe),已經發(fa)表(biao)了 40 余篇技(ji)術(shu)(shu)文章和(he)教程。現從事大(da)數據、人工智(zhi)能相關技(ji)術(shu)(shu)支持和(he)架構設計工作(zuo)(zuo)。