上(shang)海2021年(nian)(nian)(nian)7月(yue)13日 /美通(tong)社(she)/ -- 一份(fen)(fen)最新(xin)的(de)(de)全球(qiu)《2021人工智能與機器(qi)學習現狀》調(diao)研報告(gao)(gao)顯示:2021年(nian)(nian)(nian),53%的(de)(de)AI團隊報告(gao)(gao)預算在(zai)50萬(wan)美元到500萬(wan)美元之間(而2020年(nian)(nian)(nian)約(yue)為三分之一),這(zhe)個強(qiang)烈的(de)(de)信(xin)號表明AI對于(yu)各(ge)行各(ge)業(ye)各(ge)種規(gui)模企(qi)業(ye)的(de)(de)成(cheng)功變得(de)越來越重要。這(zhe)份(fen)(fen)由(you)全球(qiu)領先的(de)(de)AI數據服務平臺(tai)公(gong)司(si)澳鵬(Appen)連續第7年(nian)(nian)(nian)發布的(de)(de)AI現狀年(nian)(nian)(nian)度(du)報告(gao)(gao)還(huan)強(qiang)調(diao),在(zai)2020年(nian)(nian)(nian)由(you)于(yu)新(xin)冠疫(yi)情,各(ge)規(gui)模的(de)(de)企(qi)業(ye)都(dou)加速推進了AI戰略,并且在(zai)2021年(nian)(nian)(nian)還(huan)將繼續保持這(zhe)種勢頭。
在中(zhong)(zhong)國(guo),AI技(ji)術應用開始全(quan)面覆(fu)蓋日常生活(huo)、科學研究、社(she)會(hui)治理、商業(ye)創新和(he)國(guo)家安全(quan)等經(jing)濟社(she)會(hui)的(de)關鍵領域(yu),以空(kong)前的(de)廣度和(he)深度推動社(she)會(hui)發(fa)展。由中(zhong)(zhong)國(guo)信通院與中(zhong)(zhong)國(guo)人工(gong)智(zhi)能產(chan)業(ye)發(fa)展聯(lian)盟推出的(de)《2021人工(gong)智(zhi)能核(he)心產(chan)業(ye)白皮書》指出,工(gong)程(cheng)技(ji)術正(zheng)(zheng)在引領AI產(chan)業(ye) -- 技(ji)術成本(ben)快速(su)下降(jiang),同等算法水平所需計算量每(mei)8個月降(jiang)低一(yi)倍(bei)、成本(ben)降(jiang)低百倍(bei),涌現了(le)多樣化的(de)研發(fa)和(he)技(ji)術服務平臺,這(zhe)些說明AI正(zheng)(zheng)從(cong)技(ji)術理論突破(po)過渡到工(gong)程(cheng)化落地應用的(de)階段。
深(shen)度(du)神(shen)(shen)經網(wang)絡(luo)是(shi)(shi)當前AI的(de)主(zhu)要(yao)(yao)模(mo)(mo)型,而監(jian)(jian)督學習則是(shi)(shi)構建(訓練)深(shen)度(du)神(shen)(shen)經網(wang)絡(luo)的(de)主(zhu)要(yao)(yao)方法,監(jian)(jian)督學習所需(xu)要(yao)(yao)的(de)大規模(mo)(mo)、高質(zhi)量的(de)人工(gong)(gong)標(biao)注數(shu)(shu)據(ju)(ju)集是(shi)(shi)AI產(chan)(chan)業(ye)發展的(de)剛(gang)需(xu),也(ye)是(shi)(shi)AI工(gong)(gong)業(ye)化的(de)主(zhu)要(yao)(yao)瓶頸之一。在中國,正在大量涌現AI數(shu)(shu)據(ju)(ju)標(biao)注產(chan)(chan)業(ye)基地,但當前的(de)AI數(shu)(shu)據(ju)(ju)標(biao)注產(chan)(chan)業(ye)仍處于初(chu)級階段。澳鵬公司產(chan)(chan)品研發總監(jian)(jian)張童皓表(biao)示,用戶對(dui)于數(shu)(shu)據(ju)(ju)規模(mo)(mo)、質(zhi)量和多樣性等(deng)要(yao)(yao)求越來越高,專業(ye)化數(shu)(shu)據(ju)(ju)服(fu)務平(ping)臺是(shi)(shi)AI工(gong)(gong)業(ye)化的(de)突(tu)破口。
AI領先一步的秘訣
獲(huo)得大(da)(da)規(gui)模(mo)、高質(zhi)量的(de)(de)人(ren)工(gong)標注(zhu)數(shu)(shu)據(ju),這不僅是(shi)(shi)中國(guo)企(qi)業(ye)AI實踐(jian)成功和AI工(gong)業(ye)化(hua)的(de)(de)關(guan)鍵,在全球(qiu)也(ye)是(shi)(shi)類似的(de)(de)剛需。無論從全球(qiu)還是(shi)(shi)中國(guo)市場(chang)來說,專業(ye)的(de)(de)數(shu)(shu)據(ju)標注(zhu)服務(wu)商(shang)都(dou)(dou)是(shi)(shi)AI工(gong)業(ye)化(hua)領(ling)先一步的(de)(de)關(guan)鍵。澳鵬《2021人(ren)工(gong)智能(neng)與(yu)機器學習現狀》調研報(bao)告指(zhi)出,獲(huo)取足(zu)夠的(de)(de)優質(zhi)訓練數(shu)(shu)據(ju)來部署AI是(shi)(shi)各種(zhong)(zhong)規(gui)模(mo)企(qi)業(ye)成功的(de)(de)重大(da)(da)障礙(ai),而全球(qiu)絕(jue)大(da)(da)多數(shu)(shu)企(qi)業(ye)都(dou)(dou)在某(mou)種(zhong)(zhong)程度(du)上采(cai)用(yong)了(le)專業(ye)數(shu)(shu)據(ju)供應商(shang) -- 這反映了(le)數(shu)(shu)據(ju)采(cai)集、準(zhun)備和管理是(shi)(shi)AI面(mian)臨的(de)(de)首要挑(tiao)戰(zhan)。
根據(ju)(ju)(ju)澳鵬的調研,使(shi)用專(zhuan)業(ye)(ye)(ye)(ye)(ye)數(shu)據(ju)(ju)(ju)供(gong)應商(shang)的企業(ye)(ye)(ye)(ye)(ye)表示他們(men)在AI部署(shu)方面(mian)領(ling)先(xian)于其(qi)他企業(ye)(ye)(ye)(ye)(ye)的可能(neng)性(xing)要高(gao)1.5倍(bei),而(er)落后的可能(neng)性(xing)要低4倍(bei),也(ye)就(jiu)是(shi)說使(shi)用專(zhuan)業(ye)(ye)(ye)(ye)(ye)數(shu)據(ju)(ju)(ju)供(gong)應商(shang)的企業(ye)(ye)(ye)(ye)(ye)部署(shu)了更多的AI項(xiang)目,而(er)且實(shi)現(xian)了更大的投資回報率(lv)。特別是(shi),澳鵬發現(xian)使(shi)用專(zhuan)業(ye)(ye)(ye)(ye)(ye)數(shu)據(ju)(ju)(ju)供(gong)應商(shang)的企業(ye)(ye)(ye)(ye)(ye)更有可能(neng)將AI部署(shu)到生產環境。
此外(wai),AI部署是一(yi)個持續的(de)過(guo)程,而(er)不是一(yi)勞(lao)永逸。去年(nian),80%的(de)被(bei)調(diao)研企(qi)業至(zhi)少每季(ji)度(du)更新(xin)一(yi)次(ci)(ci)模(mo)(mo)型(xing),今年(nian)已增加(jia)到87%;2021 年(nian),57%的(de)受(shou)訪者表示至(zhi)少每月(yue)更新(xin)一(yi)次(ci)(ci)模(mo)(mo)型(xing),高于 2020年(nian)的(de)45%。而(er)與較小(xiao)的(de)企(qi)業相(xiang)比,大(da)型(xing)企(qi)業更有可能更新(xin)AI模(mo)(mo)型(xing),至(zhi)少每季(ji)度(du)更新(xin)一(yi)次(ci)(ci)的(de)比例為91%。其(qi)中,使用專業數據供應商的(de)企(qi)業最有可能每月(yue)更新(xin)其(qi)模(mo)(mo)型(xing)。
就(jiu)中(zhong)國市場(chang)來說(shuo),以數(shu)(shu)據(ju)(ju)標注(zhu)為代表的專業(ye)數(shu)(shu)據(ju)(ju)服(fu)務(wu)行(xing)(xing)(xing)業(ye)才剛剛起(qi)步,相關(guan)技(ji)術發(fa)(fa)展(zhan)程度(du)低,屬于勞(lao)動(dong)(dong)力密(mi)集(ji)型行(xing)(xing)(xing)業(ye),而(er)且該(gai)行(xing)(xing)(xing)業(ye)缺(que)乏(fa)大型專業(ye)數(shu)(shu)據(ju)(ju)供應商(shang)和服(fu)務(wu)商(shang),行(xing)(xing)(xing)業(ye)以中(zhong)小企(qi)業(ye)為主,呈現高度(du)的競爭狀態。在另(ling)一方(fang)面,數(shu)(shu)據(ju)(ju)標注(zhu)正從簡單、重復的拉(la)框標注(zhu)向精細化方(fang)向發(fa)(fa)展(zhan),也(ye)就(jiu)是說(shuo)數(shu)(shu)據(ju)(ju)標注(zhu)行(xing)(xing)(xing)業(ye)正從簡單的勞(lao)動(dong)(dong)力密(mi)集(ji)型向專業(ye)型數(shu)(shu)據(ju)(ju)服(fu)務(wu)過渡。
AI數據服務專業化
當(dang)前,中國的(de)(de)AI行業(ye)和AI應(ying)用正在高速發展(zhan),相應(ying)帶動(dong)了AI數(shu)據標注(zhu)行業(ye)的(de)(de)快速成長。特別是AI用戶(hu)對(dui)于AI數(shu)據標注(zhu)質(zhi)量(liang)的(de)(de)要(yao)求(qiu)越(yue)來越(yue)高、越(yue)來越(yue)精細(xi)化和專(zhuan)業(ye)化,諸如(ru)自動(dong)駕駛、工業(ye)制造等智(zhi)能應(ying)用場景越(yue)來越(yue)復雜,高質(zhi)量(liang)、精細(xi)化的(de)(de)標注(zhu)數(shu)據將(jiang)直接影響(xiang)算法(fa)模(mo)型的(de)(de)效果。
張童皓在(zai)(zai)(zai)加入(ru)澳鵬(peng)之(zhi)前(qian)供職于(yu)人工(gong)智能視覺公司,再(zai)之(zhi)前(qian)在(zai)(zai)(zai)攜程(cheng)和e-Bay都從事過(guo)大(da)數(shu)據(ju)和數(shu)據(ju)智能相(xiang)關產(chan)品的(de)(de)研發(fa)工(gong)作。張童皓介紹,自2015年國內AI行業掀(xian)起新(xin)一輪(lun)熱潮以來,用(yong)戶對于(yu)AI訓練(lian)數(shu)據(ju)的(de)(de)要求(qiu)越來越高(gao)。以圖(tu)像(xiang)(xiang)類項目為例,由于(yu)支(zhi)持高(gao)清圖(tu)像(xiang)(xiang)設備的(de)(de)大(da)量(liang)出(chu)現、流媒體的(de)(de)普及等,相(xiang)應對訓練(lian)數(shu)據(ju)質量(liang)要求(qiu)水漲船(chuan)高(gao),例如(ru)對圖(tu)像(xiang)(xiang)分割(ge)任務(wu)就要求(qiu)標注打點的(de)(de)位置與(yu)實際像(xiang)(xiang)素之(zhi)間的(de)(de)偏離不超過(guo)1到3個像(xiang)(xiang)素,對語(yu)音的(de)(de)切分要在(zai)(zai)(zai)毫秒級且前(qian)后兩段不能有(you)重疊(die)或(huo)空隙。
除了要求更高(gao)(gao)質量的(de)(de)(de)訓(xun)練(lian)數(shu)(shu)(shu)據(ju)外,由于深度(du)神經網絡(luo)的(de)(de)(de)模(mo)型(xing)(xing)效(xiao)果(guo)與訓(xun)練(lian)數(shu)(shu)(shu)據(ju)的(de)(de)(de)規模(mo)呈正相關性,當前很(hen)多(duo)客戶不(bu)(bu)僅需要海量的(de)(de)(de)高(gao)(gao)質量訓(xun)練(lian)數(shu)(shu)(shu)據(ju),而且(qie)還要覆蓋更多(duo)的(de)(de)(de)場景(jing),也就(jiu)是對同(tong)一個場景(jing)提出不(bu)(bu)同(tong)的(de)(de)(de)數(shu)(shu)(shu)據(ju)標(biao)(biao)注(zhu)(zhu)要求。再加上很(hen)多(duo)AI場景(jing)都仍屬(shu)于探索(suo)階段、場景(jing)需求多(duo)變,例如(ru)智能駕(jia)駛(shi)從早期(qi)(qi)的(de)(de)(de)目標(biao)(biao)跟蹤到后來的(de)(de)(de)遮擋(dang)、連續(xu)性等出現了不(bu)(bu)同(tong)的(de)(de)(de)訴求,因此不(bu)(bu)同(tong)團隊需要標(biao)(biao)注(zhu)(zhu)不(bu)(bu)同(tong)的(de)(de)(de)數(shu)(shu)(shu)據(ju)屬(shu)性,很(hen)容易(yi)出現一個圖像(xiang)數(shu)(shu)(shu)據(ju)集卻有(you)多(duo)種不(bu)(bu)同(tong)標(biao)(biao)注(zhu)(zhu)要求的(de)(de)(de)情況。當然,在AI模(mo)型(xing)(xing)生(sheng)命周期(qi)(qi)的(de)(de)(de)不(bu)(bu)同(tong)研發階段,也可能提出完全不(bu)(bu)同(tong)的(de)(de)(de)數(shu)(shu)(shu)據(ju)標(biao)(biao)注(zhu)(zhu)要求。這是由于AI模(mo)型(xing)(xing)在迭(die)代的(de)(de)(de)過程(cheng)中,需要用(yong)數(shu)(shu)(shu)據(ju)進行模(mo)型(xing)(xing)訓(xun)練(lian)和效(xiao)果(guo)驗證,如(ru)果(guo)模(mo)型(xing)(xing)效(xiao)果(guo)不(bu)(bu)理想(xiang)就(jiu)需要調整方向,這就(jiu)意味著(zhu)新一輪的(de)(de)(de)數(shu)(shu)(shu)據(ju)標(biao)(biao)注(zhu)(zhu)處理。
此外,由(you)于(yu)數(shu)據(ju)(ju)合規性和隱私(si)保護的要(yao)(yao)求(qiu)越來越高,純云端的數(shu)據(ju)(ju)標注(zhu)平(ping)(ping)臺(tai)(tai)和服務就無法(fa)全部滿足企業用戶要(yao)(yao)求(qiu),這就要(yao)(yao)求(qiu)私(si)有化(hua)部署(shu)的數(shu)據(ju)(ju)標注(zhu)平(ping)(ping)臺(tai)(tai)和眾包管理平(ping)(ping)臺(tai)(tai)。不過(guo),私(si)有化(hua)部署(shu)固然能夠(gou)更(geng)好(hao)的保障數(shu)據(ju)(ju)安全,但其部署(shu)和維護成本較高,這也(ye)帶來了相應(ying)的挑戰。
突破AI工業化瓶頸
專業化(hua)(hua)的(de)(de)AI訓練數(shu)據(ju)標(biao)注平(ping)臺(tai)及(ji)眾(zhong)(zhong)包管(guan)(guan)理平(ping)臺(tai)是(shi)當前中(zhong)國AI工(gong)業化(hua)(hua)瓶頸的(de)(de)重(zhong)要突破口之一,這也(ye)是(shi)澳(ao)(ao)鵬(peng)(Appen)進入中(zhong)國市(shi)場的(de)(de)重(zhong)要原(yuan)因。澳(ao)(ao)鵬(peng)迄今已經有25年(nian)的(de)(de)歷史,擁有業內先進的(de)(de)人工(gong)智能輔助數(shu)據(ju)標(biao)注平(ping)臺(tai)和一體(ti)化(hua)(hua)AI數(shu)據(ju)及(ji)資源管(guan)(guan)理平(ping)臺(tai),以及(ji)全球100多萬(wan)名(ming)技能嫻(xian)熟的(de)(de)眾(zhong)(zhong)包資源 -- 來自(zi)全球170多個(ge)國家和70,000個(ge)地區,支持235多種語言和方(fang)言。澳(ao)(ao)鵬(peng)中(zhong)國團隊從2019年(nian)就開始(shi)就重(zhong)新構建面向中(zhong)國市(shi)場的(de)(de)AI數(shu)據(ju)標(biao)注平(ping)臺(tai)、相(xiang)應的(de)(de)工(gong)具以及(ji)眾(zhong)(zhong)包資源渠道和管(guan)(guan)理平(ping)臺(tai),2021年(nian)澳(ao)(ao)鵬(peng)大(da)中(zhong)華區正式成立并獨立運(yun)作。
作為全(quan)球領先(xian)的(de)(de)AI訓練數(shu)據(ju)(ju)(ju)(ju)服務(wu)提(ti)供商,澳鵬的(de)(de)拳頭產品和(he)(he)服務(wu)就是(shi)數(shu)據(ju)(ju)(ju)(ju)標注平(ping)臺和(he)(he)眾包資源。針對中(zhong)國(guo)(guo)(guo)市(shi)場(chang)(chang),澳鵬中(zhong)國(guo)(guo)(guo)研發中(zhong)心借鑒公(gong)司(si)在(zai)海外的(de)(de)實戰經驗,重新獨(du)立開(kai)發了中(zhong)國(guo)(guo)(guo)版本的(de)(de)數(shu)據(ju)(ju)(ju)(ju)服務(wu)平(ping)臺。張童(tong)皓強(qiang)調,之所以選(xuan)擇重新開(kai)發中(zhong)國(guo)(guo)(guo)市(shi)場(chang)(chang)的(de)(de)數(shu)據(ju)(ju)(ju)(ju)標注平(ping)臺版本,這一方(fang)面是(shi)針對中(zhong)國(guo)(guo)(guo)客戶(hu)的(de)(de)用戶(hu)習(xi)慣與(yu)特色(se)需求,另一方(fang)面是(shi)切(qie)合中(zhong)國(guo)(guo)(guo)市(shi)場(chang)(chang)的(de)(de)數(shu)據(ju)(ju)(ju)(ju)監管和(he)(he)法(fa)規遵從(cong)要求。例(li)如,澳鵬中(zhong)國(guo)(guo)(guo)數(shu)據(ju)(ju)(ju)(ju)標注平(ping)臺的(de)(de)公(gong)有云(yun)版就部署在(zai)國(guo)(guo)(guo)內,完全(quan)符合中(zhong)國(guo)(guo)(guo)企業用戶(hu)對數(shu)據(ju)(ju)(ju)(ju)安全(quan)的(de)(de)要求。
澳(ao)(ao)(ao)鵬(peng)(peng)中國(guo)數據標注(zhu)(zhu)平臺共有三大功(gong)能(neng):資(zi)源管(guan)理(li)、項目(mu)管(guan)理(li)和(he)(he)(he)標注(zhu)(zhu)工具箱。其中,資(zi)源管(guan)理(li)部(bu)分(fen)對接(jie)了澳(ao)(ao)(ao)鵬(peng)(peng)全渠道資(zi)源,包括簽約供(gong)應商以(yi)及眾(zhong)包人員和(he)(he)(he)澳(ao)(ao)(ao)鵬(peng)(peng)在無錫和(he)(he)(he)大連的(de)內(nei)部(bu)標注(zhu)(zhu)中心團隊(dui);項目(mu)管(guan)理(li)部(bu)分(fen),作為一家綜合性(xing)數據服務(wu)公司,澳(ao)(ao)(ao)鵬(peng)(peng)平臺提(ti)供(gong)了項目(mu)配置和(he)(he)(he)管(guan)理(li)、工作流配置、數據資(zi)源分(fen)配和(he)(he)(he)質檢等功(gong)能(neng);標注(zhu)(zhu)工具箱方面,支持(chi)視(shi)頻、圖像和(he)(he)(he)音(yin)頻的(de)標注(zhu)(zhu)和(he)(he)(he)轉錄、文本(ben)標注(zhu)(zhu)與翻譯,全覆蓋文本(ben)、音(yin)頻、2D和(he)(he)(he)3D圖像等,還(huan)提(ti)供(gong)了智能(neng)輔助標注(zhu)(zhu)工具。
數(shu)(shu)據(ju)標(biao)(biao)(biao)注是(shi)一(yi)(yi)個(ge)復(fu)(fu)(fu)雜(za)的(de)系統工(gong)程(cheng)(cheng),由標(biao)(biao)(biao)注員(yuan)和質檢員(yuan)一(yi)(yi)起協(xie)同工(gong)作(zuo)(zuo)。在這個(ge)協(xie)同的(de)過程(cheng)(cheng)中,有數(shu)(shu)據(ju)的(de)提(ti)交和打回等復(fu)(fu)(fu)雜(za)操作(zuo)(zuo)。此外,澳鵬作(zuo)(zuo)為(wei)一(yi)(yi)家綜(zong)合性(xing)專業數(shu)(shu)據(ju)服務(wu)(wu)公(gong)司,平臺(tai)上往往存在多(duo)個(ge)并(bing)行任務(wu)(wu),任務(wu)(wu)屬性(xing)各(ge)不(bu)相同,有的(de)要求流轉(zhuan)非常快(kuai)(kuai)、有的(de)單條數(shu)(shu)據(ju)工(gong)作(zuo)(zuo)時(shi)間很長,項(xiang)目組規模從幾十(shi)人到上萬不(bu)等,因此澳鵬中國數(shu)(shu)據(ju)標(biao)(biao)(biao)注平臺(tai)選(xuan)擇了開源的(de)分布(bu)式(shi)消息隊列Pulsar作(zuo)(zuo)為(wei)底層基(ji)礎架構。Pulsar被視為(wei)下一(yi)(yi)代(dai)企業級分布(bu)式(shi)消息系統,是(shi)Kafka的(de)替代(dai)型技術,其特點包括(kuo)多(duo)租戶、低(di)延遲、讀寫分離(li)、跨(kua)地域復(fu)(fu)(fu)制(zhi)、快(kuai)(kuai)速擴容、靈活容錯等特性(xing)。
張(zhang)童皓強調,較前沿(yan)的(de)技術架構(gou)給平(ping)臺(tai)帶來了(le)吞吐(tu)性(xing)能(neng)方面的(de)競爭優(you)勢(shi),除此(ci)以外,澳鵬全球(qiu)眾包資(zi)(zi)源的(de)對(dui)接(jie)也是其獨(du)有優(you)勢(shi),而即使是在國內也有獨(du)到的(de)眾包資(zi)(zi)源 -- 3000人規模的(de)中文專(zhuan)業(ye)醫(yi)(yi)學(xue)數據標注(zhu)團隊,都具有臨床執業(ye)資(zi)(zi)格(ge)和(he)豐(feng)富(fu)醫(yi)(yi)學(xue)項目經驗(yan),可對(dui)醫(yi)(yi)學(xue)影(ying)像和(he)問答進行高(gao)效標注(zhu)。
自研專業化數據標注平臺
專業(ye)化數(shu)據(ju)標(biao)注(zhu)(zhu)平(ping)(ping)臺(tai)是(shi)數(shu)據(ju)標(biao)注(zhu)(zhu)行業(ye)的(de)(de)核心競爭力,也(ye)是(shi)AI工業(ye)化的(de)(de)關鍵平(ping)(ping)臺(tai)之一(yi)。在(zai)全球,具備專業(ye)化數(shu)據(ju)標(biao)注(zhu)(zhu)平(ping)(ping)臺(tai)及其能(neng)(neng)力的(de)(de)數(shu)據(ju)服(fu)(fu)務商屈(qu)指可(ke)數(shu),澳(ao)鵬(peng)就是(shi)其中之一(yi)。隨著澳(ao)鵬(peng)進(jin)入(ru)中國(guo)(guo)市場,也(ye)將專業(ye)化數(shu)據(ju)標(biao)注(zhu)(zhu)平(ping)(ping)臺(tai)的(de)(de)實踐帶(dai)入(ru)中國(guo)(guo)市場,由澳(ao)鵬(peng)中國(guo)(guo)研發中心全自(zi)研的(de)(de)澳(ao)鵬(peng)中國(guo)(guo)數(shu)據(ju)標(biao)注(zhu)(zhu)平(ping)(ping)臺(tai)是(shi)一(yi)個國(guo)(guo)產化的(de)(de)數(shu)據(ju)標(biao)注(zhu)(zhu)平(ping)(ping)臺(tai),該(gai)平(ping)(ping)臺(tai)定位于全流程一(yi)站(zhan)式人機協(xie)同高(gao)質(zhi)量(liang)數(shu)據(ju)平(ping)(ping)臺(tai),具備從數(shu)據(ju)需(xu)求提(ti)出到策(ce)略制(zhi)定、數(shu)據(ju)收集(ji)、高(gao)精(jing)度標(biao)注(zhu)(zhu)/分類、數(shu)據(ju)分析和數(shu)據(ju)服(fu)(fu)務,直(zhi)到數(shu)據(ju)全量(liang)交付的(de)(de)核心場景功能(neng)(neng)。
張(zhang)童皓介紹,澳鵬(peng)中(zhong)(zhong)(zhong)(zhong)國(guo)數據標(biao)(biao)注(zhu)(zhu)平臺具(ju)(ju)有多(duo)種獨(du)到(dao)的(de)(de)專業技(ji)術。其中(zhong)(zhong)(zhong)(zhong)的(de)(de)標(biao)(biao)注(zhu)(zhu)工(gong)具(ju)(ju)箱在(zai)多(duo)語(yu)言(yan)和(he)復(fu)(fu)雜(za)圖(tu)像處(chu)理(li)(li)方(fang)面極具(ju)(ju)競爭力:圖(tu)像語(yu)義分(fen)割(ge)技(ji)術,可以在(zai)保證像素級(ji)精度(du)同時,實(shi)現10分(fen)鐘處(chu)理(li)(li)一張(zhang)圖(tu)的(de)(de)高(gao)速處(chu)理(li)(li);隨著(zhu)2D圖(tu)像的(de)(de)視頻全結構化趨勢,澳鵬(peng)平臺可以同時識別視頻中(zhong)(zhong)(zhong)(zhong)的(de)(de)多(duo)類(lei)型目標(biao)(biao),可進(jin)行點(dian)、線、框和(he)多(duo)邊型融(rong)合的(de)(de)復(fu)(fu)雜(za)標(biao)(biao)注(zhu)(zhu)而(er)且支(zhi)(zhi)持(chi)連續幀(zhen),而(er)傳統工(gong)具(ju)(ju)僅為單(dan)模式單(dan)幀(zhen);在(zai)3D圖(tu)像處(chu)理(li)(li)方(fang)面,由(you)于3D圖(tu)像數據難于理(li)(li)解以及查看(kan)不便(bian)(即3D空間(jian)中(zhong)(zhong)(zhong)(zhong)的(de)(de)點(dian)狀物(wu)密(mi)集聚集在(zai)一起(qi)形(xing)成的(de)(de)3D點(dian)云),澳鵬(peng)投入了大量研發資源(yuan),開發了拉框標(biao)(biao)注(zhu)(zhu)和(he)語(yu)義分(fen)割(ge)等(deng)一整(zheng)套(tao)的(de)(de)標(biao)(biao)注(zhu)(zhu)工(gong)具(ju)(ju),其中(zhong)(zhong)(zhong)(zhong)拉框標(biao)(biao)注(zhu)(zhu)支(zhi)(zhi)持(chi)2D&3D融(rong)合標(biao)(biao)注(zhu)(zhu)、自動貼合、連續幀(zhen)跟蹤、可定義對象實(shi)例關系、高(gao)度(du)集成質檢和(he)交付流(liu)程等(deng),而(er)最具(ju)(ju)特(te)色的(de)(de)2D&3D融(rong)合標(biao)(biao)注(zhu)(zhu)可將3D物(wu)體映射到(dao)2D圖(tu)像中(zhong)(zhong)(zhong)(zhong)進(jin)行關聯(lian)。
澳鵬(peng)中(zhong)國(guo)數(shu)據標(biao)注(zhu)平臺還提供了(le):數(shu)據有效性驗證規則配置功能(neng),例(li)如一(yi)(yi)輛車(che)消(xiao)失了(le)多長時(shi)間就被視(shi)為(wei)數(shu)據異常,可及時(shi)提醒標(biao)注(zhu)員(yuan)或質檢員(yuan)進(jin)(jin)(jin)行糾正;在(zai)數(shu)據驗收方面,為(wei)客(ke)戶提供了(le)最低粒度驗收或打(da)回(hui)(hui)(hui),即不是對一(yi)(yi)整張(zhang)圖進(jin)(jin)(jin)行驗收或打(da)回(hui)(hui)(hui),而是對其中(zhong)的(de)一(yi)(yi)個框或一(yi)(yi)個點進(jin)(jin)(jin)行精準的(de)驗收和打(da)回(hui)(hui)(hui),這樣(yang)標(biao)注(zhu)員(yuan)就可以直接對被打(da)回(hui)(hui)(hui)的(de)問題數(shu)據進(jin)(jin)(jin)行修正;澳鵬(peng)中(zhong)國(guo)數(shu)據標(biao)注(zhu)平臺的(de)標(biao)注(zhu)工具可實現99.9%的(de)準確率,可達(da)到5分鐘一(yi)(yi)張(zhang)、1秒一(yi)(yi)幀(zhen)極(ji)速質檢,在(zai)交互(hu)、超大數(shu)據加載、實時(shi)切(qie)幀(zhen)進(jin)(jin)(jin)行渲染等方面都達(da)到了(le)行業第(di)一(yi)(yi)。
在(zai)澳鵬中(zhong)國數據(ju)標注(zhu)工具(ju)底層有一個通(tong)用的(de)技術組(zu)件,這就(jiu)是(shi)模板引(yin)擎(qing)。開發(fa)模板引(yin)擎(qing)的(de)目的(de),在(zai)于(yu)澳鵬是(shi)一家綜合數據(ju)服務(wu)(wu)(wu)提(ti)供商,支(zhi)持多(duo)家客戶(hu)并行并發(fa)多(duo)種(zhong)標注(zhu)任(ren)務(wu)(wu)(wu),因此通(tong)過模板引(yin)擎(qing)讓內部(bu)團(tuan)隊可以簡單編寫腳(jiao)本(ben)代碼后(hou)就(jiu)能(neng)定制化(hua)不同標注(zhu)工具(ju),以支(zhi)持不同客戶(hu)的(de)不同標注(zhu)任(ren)務(wu)(wu)(wu)。
澳鵬中國數(shu)據(ju)標(biao)注(zhu)平(ping)臺也可(ke)以(yi)被私有化部署(shu)到企(qi)(qi)業內(nei)部,因此(ci)對(dui)(dui)于企(qi)(qi)業客戶來說,該平(ping)臺還提(ti)供(gong)了(le)多(duo)種企(qi)(qi)業級能力,包括(kuo)靈(ling)(ling)活的工(gong)(gong)作(zuo)流(liu)(liu)配置(zhi)、多(duo)資源組合管(guan)理(li)、多(duo)種部署(shu)方式等(deng)。在靈(ling)(ling)活的工(gong)(gong)作(zuo)流(liu)(liu)配置(zhi)方面(mian),企(qi)(qi)業的項目經理(li)通過(guo)選項勾(gou)選,就(jiu)(jiu)(jiu)可(ke)以(yi)靈(ling)(ling)活配置(zhi)不同的工(gong)(gong)作(zuo)流(liu)(liu),實現不同的數(shu)據(ju)流(liu)(liu)轉策略和流(liu)(liu)程。例如,有的文本標(biao)注(zhu)項目,單條數(shu)據(ju)處(chu)理(li)的速度非(fei)常快,就(jiu)(jiu)(jiu)可(ke)以(yi)配置(zhi)為讓標(biao)注(zhu)員一次領取多(duo)條數(shu)據(ju);有的翻譯標(biao)注(zhu)項目,當標(biao)注(zhu)時(shi)(shi)出現錯別字(zi)時(shi)(shi),就(jiu)(jiu)(jiu)可(ke)以(yi)配置(zhi)為質(zhi)檢(jian)員直接修(xiu)改而無(wu)須打回,這樣就(jiu)(jiu)(jiu)避免了(le)反復提(ti)交數(shu)據(ju)的時(shi)(shi)間浪費;而對(dui)(dui)于3D點云標(biao)注(zhu)項目,一條圖(tu)像數(shu)據(ju)可(ke)達300多(duo)幀,標(biao)注(zhu)時(shi)(shi)間不僅非(fei)常長而且需要(yao)處(chu)理(li)完(wan)成后馬上提(ti)交質(zhi)檢(jian)以(yi)及及時(shi)(shi)修(xiu)正問題。
在(zai)多資(zi)源組合(he)管(guan)理方(fang)面,澳鵬(peng)(peng)中(zhong)(zhong)國(guo)數(shu)據標(biao)(biao)注(zhu)平臺(tai)可以(yi)讓企業(ye)同時配(pei)置管(guan)理內(nei)部(bu)的(de)標(biao)(biao)注(zhu)團(tuan)隊和外部(bu)的(de)供應商及眾包資(zi)源。在(zai)多種部(bu)署方(fang)式方(fang)面,澳鵬(peng)(peng)中(zhong)(zhong)國(guo)數(shu)據標(biao)(biao)注(zhu)平臺(tai)支持SaaS、私有化部(bu)署、混合(he)云方(fang)式等,可實現從(cong)標(biao)(biao)注(zhu)員向客戶提交(jiao)數(shu)據文件全(quan)程不(bu)經由澳鵬(peng)(peng)中(zhong)(zhong)國(guo)的(de)服務(wu)器,通過(guo)物理切割而(er)最大限度保障企業(ye)數(shu)據的(de)隱私與安(an)全(quan)。澳鵬(peng)(peng)中(zhong)(zhong)國(guo)數(shu)據標(biao)(biao)注(zhu)平臺(tai)還支持白名單、后臺(tai)日志審計等運(yun)營方(fang)式,從(cong)而(er)在(zai)大幅縮減(jian)企業(ye)服務(wu)器運(yun)營成本的(de)同時,加速項目(mu)上線時間,達到兼顧安(an)全(quan)與效率的(de)項目(mu)運(yun)營優(you)化。
張童皓強(qiang)調(diao)澳鵬中(zhong)國(guo)數(shu)據(ju)標注(zhu)(zhu)平(ping)臺(tai)作(zuo)為國(guo)產(chan)自研(yan)的(de)(de)(de)數(shu)據(ju)標注(zhu)(zhu)平(ping)臺(tai),還(huan)研(yan)發了很多獨有的(de)(de)(de)數(shu)據(ju)標注(zhu)(zhu)能(neng)力,包括3D點(dian)云(yun)車道線自動識別、專(zhuan)業(ye)的(de)(de)(de)ASR智能(neng)語(yu)音識別引擎、AI輔助標注(zhu)(zhu)等(deng),不(bu)僅克服(fu)了行業(ye)中(zhong)的(de)(de)(de)難點(dian)和(he)挑戰(zhan),還(huan)大(da)幅(fu)提升(sheng)了標注(zhu)(zhu)和(he)審(shen)核的(de)(de)(de)效率和(he)生產(chan)力。作(zuo)為一家服(fu)務于AI產(chan)業(ye)和(he)項目的(de)(de)(de)數(shu)據(ju)服(fu)務商(shang),澳鵬在(zai)AI倫理道德、法規遵從(cong)等(deng)方(fang)面都有專(zhuan)門的(de)(de)(de)策(ce)略、技術(shu)和(he)管理機制,確保客(ke)戶(hu)的(de)(de)(de)項目在(zai)最大(da)程度上避免這些方(fang)面的(de)(de)(de)問題。
總結而言:以澳鵬為代表的(de)(de)(de)專(zhuan)業(ye)(ye)(ye)數(shu)據(ju)(ju)標注(zhu)服務(wu)(wu)商及其國產自研專(zhuan)業(ye)(ye)(ye)數(shu)據(ju)(ju)標注(zhu)平臺,是AI工(gong)(gong)業(ye)(ye)(ye)化(hua)(hua)的(de)(de)(de)一大(da)標志(zhi)。這代表了AI數(shu)據(ju)(ju)標注(zhu)服務(wu)(wu)正從(cong)簡單的(de)(de)(de)勞動力密集型向專(zhuan)業(ye)(ye)(ye)數(shu)據(ju)(ju)服務(wu)(wu)和工(gong)(gong)業(ye)(ye)(ye)化(hua)(hua)組織過渡,而高質(zhi)量(liang)、大(da)規模(mo)、多樣(yang)化(hua)(hua)的(de)(de)(de)標注(zhu)數(shu)據(ju)(ju)及其工(gong)(gong)業(ye)(ye)(ye)化(hua)(hua)生產,將進(jin)一步推動AI工(gong)(gong)業(ye)(ye)(ye)化(hua)(hua)的(de)(de)(de)早日到(dao)來(lai)。屆時(shi),AI技術無疑將更廣泛和更深刻的(de)(de)(de)影響社會與經濟發(fa)展。
《人工(gong)智(zhi)能與機器學習現狀》白皮(pi)書
更多(duo)詳情(qing),請(qing)至澳鵬Appen官網下載。
(*作者:云科技時代 吳寧川, 原文鏈接://mp.weixin.qq.com/s/9p2klq-VMOg_Iw1QOMBsGA)