亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

watsonx.ai 背后的黑科技----企業級的 AI 與數據平臺

IBM China
2023-05-16 14:35 4660

北(bei)京2023年(nian)5月16日 /美通社/ -- 我們站在的前沿(yan)。過去(qu)十年,數據與算力的碰撞催生(sheng)了深度學習,讓許多令人刮目相看的AI能力成為現實。然(ran)而,這也(ye)讓我們面(mian)臨好似(si)潘多拉盒子那樣的矛盾性挑戰:自動(dong)化(hua)居(ju)然(ran)是勞動(dong)密集型的工作。聽起來(lai)似(si)乎好笑,但(dan)任何(he)試圖用AI來(lai)解決業務(wu)問題的人可能都知道,這是事實。 


watsonx.ai 背后的黑(hei)科技——企業(ye)級的 AI 與數據平臺

傳統的AI工(gong)具(ju)雖然(ran)功能強大,但可能昂(ang)貴且(qie)耗時難用(yong)。必須(xu)費力地(di)收集、整(zheng)理(li)數據(ju)并使用(yong)特(te)定任務(wu)的注釋來標記(ji)數據(ju),以(yi)訓(xun)練 AI 模型;而(er)構建模型還需要專(zhuan)門但卻難找(zhao)的技(ji)能,更不要說每個(ge)新任務(wu)都需要重復這(zhe)個(ge)過程。因此,企業不得不將主要注意力放在(zai)自動化那些有豐富數據(ju)和高業務(wu)價值的任務(wu)之(zhi)上,而(er)把其它的一(yi)(yi)切先放在(zai)一(yi)(yi)邊。然(ran)而(er),這(zhe)種情況正在(zai)開始改變。

Transfomers算法架構和自監督學習方法的,使我們能夠利用大量未標記的數據,為大型預訓練模型鋪平了道路,我們有時將其稱為""。這些大模型(xing)降低了自動化背后所需的(de)成本和勞力。

基(ji)(ji)礎模型為各種 AI 應(ying)用提供了(le)強(qiang)大而(er)多樣的(de)基(ji)(ji)礎。我(wo)們(men)可以使用基(ji)(ji)礎模型以有(you)限的(de)注釋數據和最少的(de)工作量快速(su)執行任務;在(zai)某(mou)些情況下,我(wo)們(men)只需要描(miao)述手頭的(de)任務就可以驅(qu)使模型去完成任務。

但這些(xie)強大(da)的技術也(ye)給(gei)企(qi)業帶來(lai)(lai)了新的風險和(he)挑戰。今天的許多模型(xing)都是在(zai)質量(liang)和(he)來(lai)(lai)源未知的數據集上進行訓(xun)練的,導(dao)致(zhi)會產生(sheng)攻擊性、有偏見或與事實(shi)不(bu)符的響應。那些(xie)最大(da)型(xing)的模型(xing)不(bu)僅(jin)成本高(gao)昂,而且(qie)訓(xun)練和(he)運(yun)行的耗能龐大(da),部署起來(lai)(lai)也(ye)很(hen)復雜(za)。

IBM 一直在開發一種方法,解決企業基礎模型所面臨的核心挑戰。IBM日前在Think大會上,這是IBM提供的(de)(de)市(shi)場上最新的(de)(de) AI 工具(ju)和技術(shu)門戶(hu)。當然,這個領域發展極快(kuai),有些工具(ju)只(zhi)有幾周時(shi)間長,而IBM也在(zai)不斷為市(shi)場提供更新的(de)(de)工具(ju)。 

watsonx.ai 是IBM剛剛宣布的產(chan)(chan)品集的(de)(de)一部分,包含(han)的(de)(de)內(nei)容多樣(yang)且(qie)將不(bu)斷演(yan)進,但IBM總體的(de)(de)承(cheng)諾不(bu)變——就(jiu)是要提供安全的(de)(de)企業就(jiu)緒(xu)的(de)(de)自動化產(chan)(chan)品。

這是 IBM 正(zheng)在進行(xing)的(de)(de)一項(xiang)工(gong)(gong)作,旨在加速客(ke)戶從AI 新(xin)(xin)范式中(zhong)獲取價值的(de)(de)旅程(cheng)。在此(ci),介紹(shao)一下IBM構(gou)建一套由 IBM 訓練的(de)(de)企業級基礎(chu)模(mo)(mo)(mo)型(xing)的(de)(de)工(gong)(gong)作,包(bao)括IBM采用(yong)的(de)(de)數據與模(mo)(mo)(mo)型(xing)架構(gou)的(de)(de)方法。同時還將概述IBM新(xin)(xin)的(de)(de)平臺和工(gong)(gong)具(ju),如(ru)何幫助企業基于廣泛的(de)(de)開(kai)源模(mo)(mo)(mo)型(xing)目錄(lu)和IBM的(de)(de)模(mo)(mo)(mo)型(xing),來構(gou)建和部署基于基礎(chu)模(mo)(mo)(mo)型(xing)的(de)(de)解決(jue)方案(an)。

數據:基礎模型的基礎

至(zhi)關重要。在(zai)(zai)有偏見(jian)或不(bu)(bu)良數據(ju)上訓(xun)練的(de)AI模型,自(zi)然(ran)會產生有偏見(jian)或不(bu)(bu)良的(de)輸出。這個(ge)問(wen)題(ti)在(zai)(zai)基礎模型時代會變(bian)得更(geng)加復雜,用于訓(xun)練模型的(de)數據(ju)通常來自(zi)眾多(duo)數據(ju)源,且異(yi)常豐富,以至(zhi)于人類(lei)根本無法(fa)合理(li)(li)地梳理(li)(li)所(suo)有數據(ju)。

由于數據是驅動基礎模(mo)(mo)型(xing)(xing)的(de)燃料,因此 IBM 一(yi)直專注于精心策(ce)劃模(mo)(mo)型(xing)(xing)中的(de)所有內(nei)容(rong)。我(wo)們開(kai)發了(le)AI工(gong)具,嚴格(ge)過濾數據中存在的(de)仇恨(hen)、褻瀆(du)、許可(ke)限制和偏見等。一(yi)旦發現(xian),立即(ji)刪(shan)除,然后重新訓練(lian)模(mo)(mo)型(xing)(xing),如此循(xun)環反復。

數(shu)據管(guan)理是一項(xiang)永遠都做(zuo)不完(wan)的(de)工作。我們(men)不斷(duan)開發和(he)完(wan)善新方(fang)法,以(yi)提高數(shu)據質(zhi)量和(he)控制(zhi),以(yi)滿足不斷(duan)變化的(de)法律(lv)和(he)監(jian)管(guan)要求。我們(men)構(gou)建(jian)了(le)一個(ge)端到端框架來跟蹤已(yi)經(jing)清洗過的(de)原始數(shu)據、使用的(de)方(fang)法,以(yi)及(ji)每(mei)個(ge)數(shu)據點接觸過的(de)模型。

我(wo)們(men)不斷(duan)收集(ji)高質(zhi)量的數據(ju),以幫助(zhu)解決金融、法律、網絡安全和可持續發(fa)展等(deng)各個領域的一些(xie)最為緊迫的業務(wu)挑戰。 我(wo)們(men)當前的目標(biao)是收集(ji)超過 1 TB 的精選(xuan)文本(ben)用以訓練我(wo)們(men)的基礎模(mo)型(xing),同時添加精選(xuan)軟件代碼、衛星數據(ju)以及 IT 網絡事件的數據(ju)與日志(zhi)。

IBM 研究院還在開發能夠在基礎模型整個生命周期中注入信任的技術,以減輕偏見并提高模型的安全性。例如,它可以識別用于調整模型的數據中的偏差數據點,以便對其進行編輯。其它方法,如,允許我們減輕(qing)模型中的偏(pian)差,即使是已經訓練(lian)過的模型。

專注于企業價值的高效基礎模型

IBM 新的 watsonx.ai 開發平臺提供了 實現企業價值的基礎模型。它們已被整合(he)到一系列 IBM的(de)產品當(dang)中,這些產品將在未(wei)來幾個月內提供給 IBM 客戶(hu)。

認(ren)識(shi)到并沒有放之四海而(er)皆準的(de)解決方案,因此IBM正(zheng)在構(gou)建一(yi)系列(lie)有著不同大小和(he)體系結構(gou)的(de)語言及代碼(ma)的(de)基礎模型(xing)。每個模型(xing)家族都(dou)以一(yi)個地質名稱代號——Granite (花崗巖)、砂巖 (Sandstone)、黑曜石 (Obsidian) 和(he)板(ban)巖 (Slate)——它們(men)匯(hui)集了來自(zi) IBM 研(yan)究院和(he)開放研(yan)究社區(qu)的(de)尖(jian)端創新(xin),每個模型(xing)都(dou)可(ke)以針(zhen)對一(yi)系列(lie)企業任務進(jin)行定制。

Granite 模型是基于僅解碼器、類似 GPT 的架構,用于生成任務。 Saadstone模型使用編碼器-解碼器架構,非常適合對特定任務進行微調,可與 Google 流行的 T5 模型互換。 Obsidian 模型利用 IBM 研究院開發的新模塊化架構,為各種任務提供高推理效率和性能水平。 Slate指的是一系列僅編碼器(基于RoBERTa)的模型,雖然不是生成式的,但對于許多企業NLP任務來說既快速又有效。所有 watsonx.ai 模型都是在 IBM 精心策劃的且聚焦企業的數據湖和IBM定制設計的云原生 AI 超級計算機 上進行訓練。

效率和可持續性是 watsonx.ai 的核心設計原則。 IBM 研究院發明了用于高效模型訓練的新技術,包括""算(suan)法,該算(suan)法可(ke)回收小(xiao)模(mo)(mo)型(xing)(xing)并讓使其"長成"較(jiao)大的(de)(de)(de)模(mo)(mo)型(xing)(xing)。這種方法可(ke)以節省(sheng)訓練(lian)模(mo)(mo)型(xing)(xing)所需的(de)(de)(de) 40% 到 70% 的(de)(de)(de)時(shi)間、成本和碳排放量。為了提高推理速度,IBM研究院利(li)用(yong)其在(zai)方面的(de)(de)(de)深厚專業知識(shi),或將模(mo)(mo)型(xing)(xing)從(cong) 32 點(dian)浮點(dian)算(suan)法縮小(xiao)到更小(xiao)的(de)(de)(de)整數位格式。降低 AI 模(mo)(mo)型(xing)(xing)精度可(ke)以在(zai)不犧(xi)牲(sheng)準確性的(de)(de)(de)情況下(xia)帶(dai)來巨(ju)大的(de)(de)(de)效率優勢。IBM希望很(hen)快在(zai)其AI優化(hua)芯片(pian)上運(yun)行這些(xie)壓縮模(mo)(mo)型(xing)(xing)。

適用于基礎模型的混合云工具

基礎模型的最后一道難題是創建一個易用的軟件平臺來調整和部署模型。IBM 基于紅帽OpenShift 構建的混合及云原生的,已針對訓練和服務基礎模型進行了優化。企(qi)業可以(yi)利用 OpenShift 的(de)靈活(huo)性在(zai)任何地點(dian)(包括本地)運行模型。

IBM在 watsonx.ai 中創建了一套工具,為客戶提供友好的用戶界面和開發人員友好的庫,用于構建基于基礎模型的解決方案。我們的提示實驗室 (Prompt Lab) 使用戶只需幾個標記的示例即可快速執行AI任務。調優開發平臺基于最先(xian)進的高效微調技術,讓客戶可(ke)(ke)以用自己(ji)的數據來實(shi)現快速、可(ke)(ke)靠的模(mo)型(xing)定制。

除了 IBM 自己的模型之外,watsonx.ai 還提供了對廣泛的開源模型目錄的無縫訪問,供企業進行試驗和快速迭代。通過與Hugging Face建立的新合作伙伴關系,IBM將在 中提(ti)供數千個開源的(de)Hugging Face基礎模(mo)型,數據集和(he)庫。反過來,Hugging Face也(ye)將在 watsonx.ai 上提(ti)供IBM所有的(de)專有和(he)開放(fang)訪問的(de)模(mo)型與(yu)工(gong)具。 

可以

展望未來

基礎(chu)模型正在改變AI 的格局(ju),并(bing)將(jiang)加(jia)速(su)推進已(yi)經取得的各項(xiang)進展。IBM 很高興(xing)能夠立于這(zhe)一快速(su)發展的技術(shu)前沿并(bing)做(zuo)出規劃,把科技創新轉化為真正的企業(ye)價(jia)值。

點擊

消息來源:IBM China
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection