深圳2021年5月26日 /美通社/ -- 近日,澳鵬Appen憑借業界高度認可的“人工智能輔助數據標注平臺”在2021第二屆深圳(國際)人工智能展上斬獲“優秀產品獎”。活動現場,澳鵬Appen(中國)高級研發總監蔣孟杰接受CSDN記者鄧(deng)曉(xiao)娟Carol的(de)專訪。訪問原文如下:
2021年5月(yue)20日~23日,由(you)深(shen)圳市科學技術協會(hui)(hui)、深(shen)圳市商務局、深(shen)圳市福田(tian)區人(ren)民政府(fu)共(gong)同指導,深(shen)圳市科技開(kai)發交流中心、深(shen)圳市人(ren)工智能行業協會(hui)(hui)聯合主辦的2021第二(er)屆(jie)深(shen)圳國際人(ren)工智能展(zhan)開(kai)幕式暨智能制造創新高峰論壇(tan)在深(shen)圳會(hui)(hui)展(zhan)中心(福田(tian))圓滿(man)舉行。
深圳(zhen)市(shi)科協主席蔣(jiang)宇(yu)揚在(zai)大(da)會致辭中指出:“人工(gong)智能既是(shi)引領(ling)未來的(de)戰略性技(ji)術,也是(shi)新一輪產業變(bian)革(ge)的(de)核(he)心驅動力”。誠然,在(zai)當今(jin)社會發展中,人工(gong)智能技(ji)術所(suo)占據(ju)的(de)地位(wei)已是(shi)舉足輕重。
#01 人工智能到底“智不智能”?
正如蒸汽時(shi)(shi)代的(de)(de)蒸汽機(ji)、電氣時(shi)(shi)代的(de)(de)發電機(ji)、信息(xi)時(shi)(shi)代的(de)(de)計算機(ji)和互聯(lian)網,人工智能正在成為推(tui)動(dong)人類進入智能時(shi)(shi)代的(de)(de)決定性力量。
然而回溯(su)過往,我們會(hui)發現熱門(men)如(ru)人工智能技(ji)術,在(zai)發展的(de)過程中也未必“星途坦蕩”的(de)。在(zai)人工智能歷史上曾(ceng)出現過“三次高潮”:
在世紀(ji)50年(nian)代~80年(nian)代,由于許多應用(yong)難(nan)題(ti)無法解決(jue)和基(ji)礎(chu)研究知識(shi)難(nan)以突破而沒有達到人們(men)預期(qi)的成果和推進(jin)。從起步(bu)-應用(yong)-低(di)迷(mi)-平穩(wen)-蓬勃發(fa)展(zhan),人工智能的道路上充滿(man)著未知的探索,道路曲(qu)折(zhe)起伏。
如今,我們正處于信(xin)息(xi)時(shi)代(dai)到(dao)智能(neng)時(shi)代(dai)的(de)(de)(de)(de)過渡期中(zhong),人(ren)工(gong)(gong)(gong)智能(neng)作為主要的(de)(de)(de)(de)推動(dong)因素(su),讓全球產業界充(chong)分意(yi)識(shi)到(dao)人(ren)工(gong)(gong)(gong)智能(neng)技術引(yin)領(ling)新一(yi)輪產業變革(ge)的(de)(de)(de)(de)重(zhong)大意(yi)義,紛(fen)紛(fen)轉型(xing)發展。而“新基建”的(de)(de)(de)(de)提出與疫(yi)情(qing)的(de)(de)(de)(de)影響,讓2020年(nian)成為人(ren)工(gong)(gong)(gong)智能(neng)史上(shang)的(de)(de)(de)(de)一(yi)個重(zhong)要拐(guai)點。如果說(shuo)在(zai)2020年(nian)之前人(ren)工(gong)(gong)(gong)智能(neng)技術還(huan)在(zai)摸索(suo)著落地應(ying)用場景,那(nei)么在(zai)2020年(nian)開始,人(ren)工(gong)(gong)(gong)智能(neng)已經(jing)加速進入人(ren)們的(de)(de)(de)(de)生活(huo)。
只是,在人工智(zhi)能飛速發展的(de)今天,人們的(de)需(xu)求也不斷在上升。對于人工智(zhi)能企(qi)業(ye)或轉型企(qi)業(ye)而言,如何跟(gen)上時代是首要考慮的(de)問題。但落到群(qun)眾當中,落到人們的(de)衣食(shi)住行當中,人工智(zhi)能到底(di)“智(zhi)不智(zhi)能”,才是人們所關注(zhu)的(de)重點。
企業(ye)想(xiang)要把AI技術/產(chan)品(pin)真(zhen)正落地,真(zhen)正做出“好的人工智能(neng)”,首先(xian)不能(neng)讓AI技術/產(chan)品(pin)只停(ting)留在實(shi)驗或原(yuan)型(xing)階段,AI模型(xing)的高質量訓(xun)練是重(zhong)中之重(zhong)。
那么,AI模型如何才(cai)能得到高質量訓練?在(zai)AI項目部署的(de)生命(ming)周(zhou)期當中(zhong),有哪些(xie)可優化的(de)地方?數(shu)據在(zai)這個過(guo)程中(zhong)起(qi)到了哪些(xie)關鍵(jian)性作用?企業(ye)在(zai)轉型路上又該(gai)如何挑選數(shu)據平臺/相關服(fu)(fu)務商?帶著(zhu)這些(xie)問題,CSDN記(ji)者對話了知名人工智能數(shu)據服(fu)(fu)務商澳鵬Appen的(de)高級(ji)研(yan)發總監蔣孟杰。
值得一提的(de)是,澳(ao)(ao)(ao)鵬(peng)在2021第二屆深圳國際人工(gong)(gong)(gong)智能展開幕式暨智能制造創新(xin)高峰論(lun)壇中(zhong)斬(zhan)獲“優(you)秀產品(pin)獎”,也曾(ceng)連續六年(nian)入圍(wei)德勤高科技成(cheng)長50強企業(澳(ao)(ao)(ao)大利亞)、維科杯·OFweek2020人工(gong)(gong)(gong)智能行業優(you)秀產品(pin)應用獎(澳(ao)(ao)(ao)鵬(peng)人工(gong)(gong)(gong)智能輔助數據標注平臺)、CIAI 2020年(nian)度中(zhong)國人工(gong)(gong)(gong)智能行業“十大創新(xin)力企業獎”等獎項。
這樣一個專(zhuan)注于(yu)人工智能(neng)數據標注的行(xing)業領軍服務(wu)商,是如(ru)何用數據推(tui)動人工智能(neng)技術與產品(pin)的?一起來(lai)聽(ting)(ting)聽(ting)(ting)蔣孟杰的真知灼見。
#02 “用AI的方式服務AI”
蔣孟杰在加入澳鵬之前(qian),曾在國(guo)際知名電商公司eBay任職,主要專注于搜(sou)索引擎(qing)搜(sou)索算法(fa)領(ling)域。大約在11年前(qian),也(ye)就(jiu)是2010年互聯網蓬勃(bo)發(fa)展的階段(duan),就(jiu)與澳鵬合作利(li)用人工(gong)審核商品(pin)和(he)搜(sou)索關(guan)鍵字之間(jian)的相關(guan)性(xing)來做相關(guan)度(du)算法(fa)以(yi)及線下算法(fa)評測平臺,在該領(ling)域有著豐富(fu)的經驗(yan)及思考。
2019年3月加入澳(ao)鵬后,蔣(jiang)孟杰負(fu)責中國(guo)區(qu)技術團(tuan)隊的研發(fa)、及全(quan)球部(bu)分模塊研發(fa)等。他所帶(dai)領的團(tuan)隊致力于打(da)造(zao)全(quan)流程(cheng)的數據平臺,包含數據采集,數據標注(zhu)和數據管理(li)。另外,針對成(cheng)熟且(qie)復雜(za)的場景開發(fa)更加高效的標注(zhu)工具,如自(zi)動駕駛、人臉關鍵點、長語音轉(zhuan)寫(xie)等。
蔣孟杰表示,越來(lai)越多的(de)企業正在走向(xiang)AI的(de)道路,與(yu)此(ci)同時,對訓練數(shu)據(ju)也(ye)有了(le)更高(gao)的(de)要(yao)求(qiu)。AI模型想要(yao)真正落地,需要(yao)大量(liang)高(gao)質量(liang)的(de)、安全無偏差的(de)數(shu)據(ju),澳鵬的(de)目(mu)標是幫(bang)助企業能(neng)夠把AI技(ji)術(shu)/產品真正的(de)落地,,而不是只停留在實驗(yan)或者原型階(jie)段,將采標流(liu)程(cheng)一體化(hua)。
深(shen)耕行業(ye)20多年澳(ao)鵬,在數據(ju)采集和(he)數據(ju)標注的(de)(de)過(guo)程中,積(ji)累了(le)大量的(de)(de)行業(ye)經驗和(he)案例,同(tong)時也擁有(you)了(le)自己(ji)先(xian)進的(de)(de)技(ji)術(shu)、資深(shen)的(de)(de)項目管理(li)(li)和(he)標注團隊,并且提出“用AI的(de)(de)方式服務AI”的(de)(de)理(li)(li)念。
澳鵬如今(jin)擁(yong)有一(yi)(yi)(yi)個數(shu)據(ju)(ju)科學(xue)家(jia)團隊,一(yi)(yi)(yi)方(fang)面(mian)會在服(fu)務(wu)企業(ye)之前(qian)了解場景,設計如何采集數(shu)據(ju)(ju)/標(biao)注數(shu)據(ju)(ju)能真正幫助到(dao)企業(ye)成功訓練模型,以結果導(dao)向。另一(yi)(yi)(yi)方(fang)面(mian)也把AI技術應用到(dao)整個服(fu)務(wu)的流程(cheng)中。用AI模型進行(xing)以下工(gong)作(zuo):
#03 技術不能閉門造車
在人(ren)工(gong)智能(neng)數(shu)據標(biao)注領域,純(chun)自動化標(biao)注是不現實(shi)的(de),邏輯上也不成立。“你(ni)用算法生成的(de)數(shu)據去訓(xun)練(lian)另一(yi)個算法,最完美的(de)情況下(xia),也就(jiu)(jiu)是訓(xun)練(lian)出跟之前一(yi)模(mo)一(yi)樣的(de)一(yi)個算法。”蔣孟杰(jie)說(shuo)道。但也不能(neng)只做純(chun)手工(gong)標(biao)注,傳(chuan)統的(de)數(shu)據標(biao)注是個純(chun)人(ren)力密集(ji)型的(de)任務,對于技術(shu)從業者而言是非(fei)常(chang)誘(you)人(ren)的(de)領域,因為稍(shao)微有一(yi)點技術(shu)的(de)引(yin)入,就(jiu)(jiu)能(neng)給(gei)企業降本增效。
在平臺(tai)的(de)(de)設計理(li)念和系統架構上,蔣(jiang)孟杰有著自(zi)己(ji)的(de)(de)思(si)考(kao)。業務(wu)在設計之(zhi)初(chu)就(jiu)引入AI中臺(tai)的(de)(de)概(gai)念, 圍繞(rao)(rao)著AI中臺(tai)為(wei)業務(wu)賦能,引入Apache Pulsar作為(wei)數據湖(hu),圍繞(rao)(rao)這個核心組件設計了靈活(huo)的(de)(de)標(biao)注(zhu)(zhu)任務(wu)的(de)(de)分發和工作流(liu)管理(li)。因(yin)為(wei)業務(wu)數據都(dou)落地Pulsar里面,借助Pulsar的(de)(de)高吞(tun)吐(tu)量(liang),可(ke)以(yi)多次重復高效得消費(fei)這些數據進(jin)行快速且松耦合得進(jin)行業務(wu)擴展,比如結合 Flink 做實時進(jin)度/工作量(liang)/質量(liang)的(de)(de)報表(biao)計算用(yong)來做項目管理(li),也可(ke)以(yi)對(dui)(dui)標(biao)注(zhu)(zhu)員進(jin)行畫(hua)像(xiang),可(ke)以(yi)實時進(jin)行反(fan)欺詐監測(ce),另外也可(ke)以(yi)對(dui)(dui)在線標(biao)注(zhu)(zhu)數據實現邊(bian)標(biao)注(zhu)(zhu)邊(bian)訓練,同時反(fan)過頭來輔(fu)助標(biao)注(zhu)(zhu)等。
澳(ao)鵬在全球(qiu)市場已經累積了(le)25+年(nian)的(de)行業(ye)經驗(yan),進入中(zhong)國(guo)(guo)市場后,澳(ao)鵬借鑒了(le)海外(wai)的(de)平臺實踐,在中(zhong)國(guo)(guo)獨立自主打造了(le)適合國(guo)(guo)內(nei)行業(ye)特(te)點(dian)的(de)高精度AI數據服務(wu)平臺。那么,中(zhong)國(guo)(guo)區的(de)技術和產品(pin)方面如何與其他地區并進?迭代過程又(you)是怎樣(yang)的(de)?
蔣孟杰(jie)認為,產品(pin)迭(die)代一(yi)定要跟隨業務發(fa)展一(yi)起(qi)錨定的(de)。在平臺設計(ji)和技術架(jia)構(gou)搭(da)建初期,事(shi)先(xian)做好技術的(de)總(zong)體架(jia)構(gou)設計(ji),在此基(ji)礎上(shang)(shang)做未來的(de)發(fa)展規(gui)劃。同(tong)時(shi),要確保(bao)團隊成員(yuan)(yuan)的(de)目標一(yi)致,再定期討論調整優(you)先(xian)級。在剛(gang)起(qi)步的(de)時(shi)候,每個(ge)迭(die)代只(zhi)能(neng)完成MVP,非核心的(de)功(gong)能(neng)會(hui)提供功(gong)能(neng)上(shang)(shang)的(de)兼(jian)容支(zhi)持,在真正的(de)使用(yong)過(guo)程中(zhong),這些未被(bei)產品(pin)化的(de)功(gong)能(neng)使用(yong)起(qi)來相當痛(tong)苦,比如招人(ren)的(de)時(shi)候,最開始的(de)版本中(zhong)先(xian)專(zhuan)注(zhu)在標注(zhu)業務本身,如果要添加,標注(zhu)員(yuan)(yuan)就上(shang)(shang)傳一(yi)個(ge)Excel文件(jian), 而沒有一(yi)個(ge)完整人(ren)員(yuan)(yuan)招募和審核流(liu)程。
令記者(zhe)感到意外的(de)(de)(de)是,澳(ao)鵬的(de)(de)(de)技術團隊(dui)并沒有閉門造車(che),關起門來自己解決(jue)問(wen)題。他們還擁有一(yi)支項目支持工程師團隊(dui),所(suo)有當下平(ping)臺(tai)滿足不了(le)的(de)(de)(de)功(gong)能,該團隊(dui)就(jiu)會(hui)準備一(yi)次性的(de)(de)(de)腳本和工具進行處理。隨后(hou),平(ping)臺(tai)一(yi)步(bu)步(bu)根據優先級把手(shou)工處理的(de)(de)(de)任(ren)務產品化,平(ping)臺(tai)發布一(yi)個版本后(hou)及(ji)時拿到反饋,然后(hou)在(zai)下一(yi)個版本中進一(yi)步(bu)提升。所(suo)以,在(zai)與產品研發團隊(dui)、項目管理團隊(dui)、業務團隊(dui)的(de)(de)(de)緊密(mi)合作(zuo)下,技術/產品迭代速度是相當快的(de)(de)(de)。
#04 人工智能數據與質量決定上層建筑
如(ru)果說(shuo)優秀技術架構(gou)與高效迭(die)代是決(jue)定一家(jia)人工智能數(shu)據服(fu)務(wu)商是否站得穩(wen)的(de)關鍵,那么真正決(jue)定它(ta)是否走得更遠的(de),就在于產品本身解決(jue)問(wen)題的(de)能力到(dao)底有(you)多強。
在這(zhe)個問題上,蔣孟杰提出(chu)了一個關鍵點:“AI項目部署(shu)生命周期”。
一般 AI 項目部署的生命周期(qi)會(hui)包(bao)含(han):數(shu)據采集、數(shu)據標注、數(shu)據探索、模型開發(fa)、模型發(fa)布、定(ding)期(qi)監(jian)控。
那么,數(shu)據在這個生(sheng)命周期里扮(ban)演著(zhu)怎樣的(de)角色?澳鵬(peng)又解決了哪些問題?蔣孟杰描述數(shu)據的(de)重要性時引(yin)用(yong)了Andrew Ng(吳恩達,人工智能和機器學習領域國際最權威(wei)學者(zhe)之一)的(de)話:成功(gong)的(de) AI 部(bu)署, 80%是(shi)數(shu)據準備(bei)(包括(kuo)數(shu)據清洗(xi)/數(shu)據標注(zhu)等), 20%是(shi)花在模(mo)型開發上。而澳鵬(peng)在整個生(sheng)命周期中幫(bang)助客戶解決數(shu)據采集,數(shu)據標注(zhu), 模(mo)型發布后期監控(kong)。
除(chu)此之外,數據(ju)的可(ke)用性質(zhi)(zhi)量(liang)也是澳鵬服務的核心(xin)。蔣孟(meng)杰打了個(ge)比喻:“AI模型就(jiu)像小孩子,你教給他(ta)(ta)什么,他(ta)(ta)便學會什么。如果數據(ju)質(zhi)(zhi)量(liang)很(hen)糟糕,那么AI模型學會的也是這(zhe)些錯誤。”所以在澳鵬有一整套方案(an)保障數據(ju)的質(zhi)(zhi)量(liang):
蔣孟杰認為,項目管理是一門藝(yi)術,尤(you)其是人工參與的場景,可能會在整個(ge)流(liu)程中(zhong)任(ren)意(yi)環節出現變化。澳鵬的優勢在于其針對各個(ge)企業的業務進行深度的打(da)磨,融入了自己的高(gao)效(xiao)的項目管理方式(shi)以及標注細節優化。
#05 撥開迷霧
CSDN:聽說澳鵬(peng)(peng)正在(zai)(zai)密切關注自(zi)動(dong)(dong)駕駛領(ling)(ling)域,那(nei)么在(zai)(zai)自(zi)動(dong)(dong)駕駛領(ling)(ling)域的(de)數據方(fang)面,目前存在(zai)(zai)哪些(xie)挑(tiao)戰?澳鵬(peng)(peng)又做(zuo)了哪些(xie)解決方(fang)案?
蔣孟杰:這(zhe)個問題可以分為(wei)5個部分。
CSDN:每個(ge)企(qi)業(ye)的技術架(jia)構(gou)與實力不(bu)同,對于初創、中型、大(da)型的企(qi)業(ye)來說,如何(he)選(xuan)擇合適(shi)的數據標注(zhu)平臺/相關服(fu)務商?其中有哪些不(bu)同嗎?
蔣孟杰:初創(chuang)業務場景變化(hua)非常快,一般標注需求量(liang)不(bu)會很大。而(er)且公(gong)司沒有精(jing)力或者資源開發或維護(hu)數據標注平臺(tai)。我們會推薦純SaaS模(mo)式,可以讓(rang)初創(chuang)企(qi)業快速(su)開啟(qi)標注,快速(su)試錯調(diao)整方(fang)向。
中型企(qi)業已經(jing)有(you)較(jiao)為成(cheng)熟的業務模式(shi)和(he)自有(you)系統,另外(wai)也(ye)有(you)資(zi)源(yuan)去開(kai)發(fa)或者運(yun)維數據標注(zhu)平臺,會比(bi)較(jiao)關心是否有(you)開(kai)放 API 進行(xing)系統集(ji)成(cheng)和(he)二次開(kai)發(fa),是否有(you)全(quan)面的功(gong)能(neng)。這類企(qi)業,我們會推薦混合云部署(shu)模式(shi)或者私有(you)化部署(shu)模式(shi),并且結合我們 Managed Service 進行(xing)數據標注(zhu)。
而一般大型的互聯(lian)網企業比較(jiao)早地使用AI 技術(shu),已經(jing)自己(ji)開(kai)發了一些(xie)標(biao)注(zhu)平臺(tai)。在選服(fu)務商的時(shi)候會特別看(kan)重服(fu)務商“是否有(you)能力(li)快速得招到大量(liang)高(gao)質(zhi)量(liang)的標(biao)注(zhu)員、是否標(biao)注(zhu)工具(ju)層面(mian)會比自己(ji)公司的效率(lv)更高(gao)、數據安全是否有(you)保障”等(deng)。這類企業我們(men)也會推薦混合云部署模式或(huo)者私有(you)化部署模式,并(bing)且結(jie)合我們(men)Managed Service 進行數據標(biao)注(zhu)。
CSDN:您認(ren)為未來人工智能數據標注領域或該領域的服(fu)務商,會有哪(na)些發展(zhan)趨勢?
蔣孟杰:現階段標(biao)注(zhu)領域魚龍(long)混(hun)雜,價格競爭激烈,其(qi)中不乏大(da)量傳統人力(li)(li)服(fu)務商進入這個(ge)領域。隨著行業(ye)的洗牌,有(you)快速(su)招人能力(li)(li)、擁有(you)大(da)量項(xiang)目管(guan)理經(jing)驗、有(you)自有(you)平臺研發(fa)能力(li)(li)的供應商會逐(zhu)漸脫穎而出。
標(biao)注(zhu)(zhu)平臺會沿(yan)著采(cai)集(ji)和標(biao)注(zhu)(zhu)一體化方向發展。對(dui)很多AI 企業(ye)來說,往往同時(shi)需要數據采(cai)集(ji)和標(biao)注(zhu)(zhu)。比(bi)如(ru)(ru)剛才的(de)例子,采(cai)集(ji)日(ri)常交流語音(yin),采(cai)集(ji)完(wan)以(yi)后需要對(dui)語音(yin)進行文字(zi)轉(zhuan)寫。如(ru)(ru)果(guo)(guo)把采(cai)集(ji)和標(biao)注(zhu)(zhu)分(fen)成(cheng)兩個(ge)獨立階段(duan),時(shi)間交付周期很長(chang),另外(wai)如(ru)(ru)果(guo)(guo)標(biao)注(zhu)(zhu)覺得采(cai)集(ji)的(de)語音(yin)里(li)面完(wan)全沒法聽清,很難及(ji)時(shi)打回給采(cai)集(ji)人員重新錄制。
另一方(fang)面,未來可能會(hui)向AI數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)中(zhong)臺(tai)發展(zhan)。不僅(jin)管理非(fei)結構化(hua)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的,也會(hui)慢慢延伸(shen)到結構化(hua)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的管理。數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)標(biao)注在整個(ge)生(sheng)命周(zhou)期(qi)中(zhong)不會(hui)是一個(ge)獨立(li)的存在。如(ru)果分裂的多個(ge)系統,數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)科學家會(hui)浪費大量(liang)時間在搬運(yun)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)上,效率不高,另外也影響創新。如(ru)果以(yi)集成式(shi)的AI數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)中(zhong)臺(tai)為(wei)基礎,數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)科學家可以(yi)開(kai)發算法和數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)標(biao)注互相迭代(dai)提(ti)升。比如(ru)邊(bian)標(biao)注邊(bian)實時訓練(lian)模(mo)型,效果沒法再(zai)次提(ti)升的時候就停止標(biao)注,這個(ge)在業界叫(jiao)主(zhu)動學習。
原文鏈接://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/117256727