上海2022年6月24日 /美通社/ -- 近期,有著25+年經驗的數據服務商澳鵬Appen,在不斷助力其自動駕駛客戶構建數據資產時發現:如今,企業的數據科學和開發所需機器學習 (ML) 模型的能力已經成熟。然而,他們中的許多人開始意識到真正的挑戰在于整個 AI 生命周期中的數據。
過(guo)去(qu)幾年,盡(jin)管自(zi)(zi)(zi)動駕(jia)駛(shi)的技術迭代速度不(bu)斷加快(kuai),但商(shang)業(ye)(ye)化(hua)一直是橫亙在(zai)所有自(zi)(zi)(zi)動駕(jia)駛(shi)從(cong)業(ye)(ye)者面(mian)前的一座大山。而在(zai)商(shang)業(ye)(ye)化(hua)落地的階段中(zhong),自(zi)(zi)(zi)動駕(jia)駛(shi)面(mian)臨的挑戰往(wang)往(wang)不(bu)是自(zi)(zi)(zi)動駕(jia)駛(shi)技術本身,而是客戶要(yao)求自(zi)(zi)(zi)動駕(jia)駛(shi)公(gong)司能夠快(kuai)速適配(pei)各種(zhong)車(che)型的同時,還要(yao)快(kuai)速適配(pei)多種(zhong)應用場(chang)景。由此(ci),自(zi)(zi)(zi)動駕(jia)駛(shi)公(gong)司則需要(yao)更(geng)多數(shu)(shu)據(ju)燃料(liao)來不(bu)斷地進(jin)行產(chan)品迭代。相(xiang)應地,行業(ye)(ye)對于(yu)數(shu)(shu)據(ju)標注與(yu)處理(li)的需求量也在(zai)水漲船高(gao)。
另一方(fang)面(mian),隨著大算力智駕(jia)(jia)(jia)平臺在未來(lai)幾年的(de)(de)(de)規模化落地(di)以(yi)及輔助(zhu)駕(jia)(jia)(jia)駛普(pu)及的(de)(de)(de)加快,配套的(de)(de)(de)車(che)載傳感器市場也(ye)進入(ru)了(le)一個高增長周期(qi)。尤(you)其是(shi)4D毫米波雷達以(yi)及激光雷達的(de)(de)(de)搭載也(ye)正處于最關鍵(jian)的(de)(de)(de)導入(ru)期(qi),這(zhe)帶(dai)來(lai)了(le)一個全新的(de)(de)(de)市場:多傳感器感知的(de)(de)(de)數據融合(he)。此外,艙內人(ren)機交互的(de)(de)(de)體驗升級(ji),也(ye)同樣需要數據迭代支持。這(zhe)也(ye)再次表明,無論是(shi)在自動駕(jia)(jia)(jia)駛還是(shi)輔助(zhu)駕(jia)(jia)(jia)駛領域(yu),數據標注(zhu)的(de)(de)(de)需求量都將迎來(lai)增長的(de)(de)(de)高峰(feng)期(qi)。
數據生產瓶頸
眾所周知,自動(dong)駕駛想(xiang)要(yao)真正落地(di),就(jiu)需要(yao)大(da)量(liang)高質(zhi)量(liang)的(de)(de)、安全(quan)無(wu)偏差(cha)的(de)(de)數據(ju)(ju)。與此同時,下游(you)企(qi)業(ye)對(dui)數據(ju)(ju)也在不斷地(di)提出更(geng)高的(de)(de)要(yao)求(qiu)。獲取低(di)成本、高質(zhi)量(liang)的(de)(de)數據(ju)(ju)依然(ran)是當(dang)前行業(ye)發展的(de)(de)一大(da)痛點。普(pu)遍而言(yan),企(qi)業(ye)并沒有過多的(de)(de)資源投入數據(ju)(ju)標注工作。因此,全(quan)球絕(jue)大(da)多數企(qi)業(ye)都(dou)在某種程度上采(cai)用了專業(ye)數據(ju)(ju)供應商的(de)(de)服務——這也意味著數據(ju)(ju)采(cai)集、分析處理和管理是AI面臨的(de)(de)首(shou)要(yao)挑戰。
另一(yi)方(fang)面(mian),在與(yu)諸(zhu)多客戶對接的過程中,數(shu)據標注(zhu)公(gong)司(si)也逐漸發現(xian),自動(dong)駕(jia)駛公(gong)司(si)對于(yu)數(shu)據服務強有力的訴求便是隨著算法的調整,標注(zhu)公(gong)司(si)可以(yi)實現(xian)靈活配合。例如,隨著算法的更迭與(yu)進步(bu),下游客戶對于(yu)數(shu)據標注(zhu)的準(zhun)確(que)度會由原來的90%提升至95%,甚至99.99%。
此外(wai),自動駕駛在(zai)不(bu)同細分場景的(de)快速開拓意味(wei)著(zhu)下游客戶(hu)的(de)研(yan)發(fa)勢必(bi)會出現波(bo)(bo)峰與波(bo)(bo)谷,這也就需要數(shu)據標注(zhu)公司提(ti)供持(chi)續穩(wen)定的(de)產能來應(ying)對客戶(hu)的(de)彈性需求。而對于多(duo)數(shu)數(shu)據服務商而言,這勢必(bi)帶來了更高難度的(de)挑戰。
針對上述痛點,業內有著超過25年歷史的人工智能訓練數據服務的"尖子生"——澳鵬Appen給出了自己的答案:由于深度學習算法是算力與大數據的產物,因此深度學習算法模型的工業化優化,也就需要AI數據供應鏈的工業化。
澳(ao)鵬Appen以高質量數據為AI部署全生命周期賦能
"工業化即以自動化、標準化和規模化可擴展方式為標志。此前,AI標注數據的供應基本以作坊式為主,難以保證AI標注數據的高質量供給,接下來AI標注數據的供給將迎來工業化爆發。"澳鵬數據科技(上海)有限公司產品及研發總監錢程表示。
錢(qian)程介紹,在數(shu)據的整個(ge)生產(chan)環節中,數(shu)據獲取、數(shu)據準備和模(mo)型(xing)評估(gu)最為(wei)費力并(bing)涉及海量數(shu)據。如果處理不當,可(ke)能會導(dao)致(zhi)項(xiang)目質量問題和項(xiang)目啟動延遲。AI從業(ye)者將80%以(yi)上的時間(jian)都(dou)花在數(shu)據管理上,因此他們需要(yao)最佳的工具和服務來完成這一過(guo)程中極其關鍵(jian)的部(bu)分。澳鵬專(zhuan)注研究(jiu)這三個(ge)階(jie)段,并(bing)與專(zhuan)業(ye)從事模(mo)型(xing)訓(xun)練(lian)和部(bu)署的供應商建立戰略合作伙伴關系(xi)。
澳鵬數據科技(上海)有限公司銷售副總裁馬冀表示:"毫米波和4D代表了未來的標注方向,對服務商的標注能力以及研發能力都有很高的要求。澳鵬會陪伴客戶共同探索和發展高精尖標注訴求。目前我們已經有毫米波、4D點云標注等項目正在和客戶積極研討中,期待在今年第三季度會有不錯的進展。"
最大難題有解
此外,在(zai)自動(dong)(dong)駕駛(shi)(shi)領(ling)域,僅僅根據已知的場(chang)景、障(zhang)礙和潛在(zai)事故原因來(lai)部署(shu)聯網(wang)自動(dong)(dong)駕駛(shi)(shi)車輛還遠遠不(bu)夠。誰能夠實現準(zhun)確預測(ce),并對不(bu)尋常(chang)的情況做出反(fan)應,將是接下來(lai)自動(dong)(dong)駕駛(shi)(shi)技(ji)術落地的爭奪焦點。
如今(jin)業界推動的"數(shu)據(ju)驅動閉環迭代",都在強(qiang)化(hua)對(dui)于(yu)不確定性事(shi)件的預測(ce)和規避、學習能力。當(dang)下的一(yi)個(ge)行(xing)業共識是(shi):在數(shu)據(ju)方(fang)面,自動駕(jia)駛面臨的最大(da)痛點(dian)便是(shi)corner case的積累(lei)。然而(er),由于(yu)不同(tong)(tong)公司數(shu)據(ju)采集(ji)車(che)的傳感器(qi)安裝位置、采集(ji)標(biao)準各(ge)(ge)有(you)不同(tong)(tong),下游公司通常只能親(qin)自下場(chang)采集(ji)各(ge)(ge)種極限工況,"一(yi)步一(yi)個(ge)腳印(yin)地"完成更多的數(shu)據(ju)積累(lei)。
針對上述問題,澳鵬提出了"合成數據"解決方案,可以模擬不同的場景并安全高效地完成數據采集,實現對于極限工況的有效補充。其具體優勢為:改進模型的可靠性、比"真實"數據獲取更快、可用于邊緣案例的補充,并可有效保護用戶隱私安全。
此前(qian),澳鵬(peng)Appen曾收(shou)購人(ren)工智能數(shu)(shu)據平臺Mindtech的少數(shu)(shu)股(gu)權,雙方將開展深度(du)合(he)作,提(ti)升為(wei)客戶提(ti)供合(he)成數(shu)(shu)據的能力。
"我(wo)們(men)對與澳鵬(peng)的(de)戰略合(he)作感到興奮(fen),"Mindtech 首席執行官史蒂(di)夫哈里斯分享(xiang)道(dao)。"這(zhe)將使(shi)(shi)更(geng)多客戶(hu)能(neng)夠使(shi)(shi)用高質量、精確注釋(shi)的(de)合(he)成(cheng)數(shu)據快速訓(xun)練他們(men)的(de)人(ren)工智能(neng)系(xi)統,同(tong)時補充 Appen 現有的(de)真實世界數(shu)據收集、管理和注釋(shi)產品。通過(guo)合(he)作,我(wo)們(men)將加(jia)速人(ren)工智能(neng)系(xi)統的(de)開發,更(geng)好地了(le)解人(ren)類如何與彼此以及周圍的(de)世界互動。"
迎接數據服務的2.0時代
總(zong)結這家"尖子生(sheng)"的(de)(de)成(cheng)績(ji),作(zuo)為澳(ao)大利亞證交(jiao)所上(shang)市的(de)(de)科技(ji)公司(si),澳(ao)鵬Appen已擁有25+年行業積累與廣泛的(de)(de)全(quan)球客戶基礎。
在服(fu)務方面,公司擁有一支過硬的數據科學家團隊,可以在服(fu)務企業(ye)之前了解場景,設計如(ru)何采集數據/標注數據能(neng)真正幫助到企業(ye)成功訓練模型, 以結(jie)果導向(xiang)。
此外,澳鵬還擁有百萬級的眾(zhong)包資源,能夠提供(gong)全球數據采集和標注服(fu)務。其在自(zi)動(dong)駕駛領域月收入額可達上千萬以上,在中國市場覆蓋30+個自(zi)動(dong)駕駛客戶。
在(zai)澳(ao)鵬看來,數(shu)據服務賦能(neng)行(xing)業的關鍵(jian)就在(zai)于整合資源,并與客(ke)戶深(shen)度綁定。例如提供(gong)技術接(jie)口,讓客(ke)戶參(can)與到標注過程中,可(ke)實時反饋(API集成),或對自有(you)平臺的功能(neng)進行(xing)改(gai)造和匹配;幫助客(ke)戶將重心(xin)放在(zai)模型(xing)開發上(shang),降低數(shu)據成本,提升算(suan)法效率。
最重要(yao)的(de)(de)(de)是(shi)(shi)(shi),公司擁有完整的(de)(de)(de)數(shu)據流轉(zhuan)系統,可(ke)以(yi)(yi)不斷迭代優化數(shu)據與(yu)服務(wu)工具(ju),并以(yi)(yi)低成(cheng)本(ben)、高(gao)靈(ling)活(huo)的(de)(de)(de)服務(wu)配合客(ke)戶需求(qiu)。可(ke)以(yi)(yi)說,在(zai)自動(dong)駕駛領域,澳鵬高(gao)精度高(gao)性能的(de)(de)(de)自動(dong)駕駛工具(ju)套裝也(ye)是(shi)(shi)(shi)其為(wei)客(ke)戶構筑(zhu)海量數(shu)據資(zi)產的(de)(de)(de)利(li)器,這是(shi)(shi)(shi)澳鵬的(de)(de)(de)核心優勢之一,也(ye)是(shi)(shi)(shi)公司迎接"數(shu)據服務(wu)2.0時代"的(de)(de)(de)不二法門。
澳鵬MatrixGo人工智能輔(fu)助數據(ju)標(biao)注平臺
何謂"數據服務2.0時代"?過去,數據標注多數只服務于自動駕駛POC項目,屬于"一錘子買賣"。而在2.0時代,軟件定義汽車帶來了對功能迭代升級頻率的高要求,背后則是每家車企積累的數據資產的價值競爭,并直接影響汽車智能化的功能優化和體驗升級能力。
據(ju)高工智能汽車(che)研究院監測數據(ju)顯(xian)示,2021年中國市場(不含(han)進出口(kou))乘用(yong)車(che)前裝(zhuang)標配搭載OTA功能上險(xian)量為748.41萬(wan)輛,同比增長(chang)65.99%,前裝(zhuang)搭載率(lv)已經提升至36.7%。而軟件召回也已經成為目(mu)前汽車(che)召回的主要因素之一。
相應的,從整體行(xing)業來看(kan),數據標注正從簡(jian)單、重(zhong)復的拉框標注向精細化方向發展(zhan),也就是說(shuo)數據標注行(xing)業正從簡(jian)單的勞動力(li)密集型(xing)向專(zhuan)業型(xing)數據服務(wu)過渡。
以(yi)澳鵬(peng)自主研發的人工智能輔(fu)助(zhu)數(shu)據(ju)標注平臺(tai)MatrixGo為(wei)例,可支持(chi)像(xiang)素級語義分割(ge)、2D圖(tu)像(xiang)復合標注、3D點云拉(la)框及語義分割(ge)等功能;
采標一體的(de)任務能(neng)夠實現采集(ji)-質(zhi)檢(jian)(jian)-標注(zhu)-質(zhi)檢(jian)(jian)-客戶驗收(shou)的(de)雙向協同流程,讓整個數(shu)據生產線(xian)上的(de)各個環(huan)節實現無(wu)縫銜接;內置(zhi)的(de)多輪(lun)質(zhi)檢(jian)(jian)模(mo)塊可以按(an)需配置(zhi),滿足不同復雜度項(xiang)目的(de)需求;2D圖像復合(he)標注(zhu)是全結(jie)構化(hua)的(de)模(mo)型訓練利器,支(zhi)持點(dian)(dian)、線(xian)、框、多邊型融合(he)標注(zhu)(常見工具(ju)是單模(mo)式(shi)的(de),點(dian)(dian)、線(xian)or折線(xian),多邊形(xing))與連續幀;
另(ling)外,此工具還支持像素級(ji)語義分割(ge),可(ke)將圖(tu)片中目(mu)標對象實(shi)例(li)標記出(chu)來,并(bing)保證像素級(ji)的質(zhi)量。其中豐富的可(ke)配置(zhi)選項可(ke)靈活(huo)進行ID處(chu)理,實(shi)戰中可(ke)以做到10分鐘/張(zhang)圖(tu)。
錢(qian)程介紹(shao),澳鵬利用ML輔(fu)助(zhu)標注等技術手段提(ti)高數(shu)據質(zhi)量,通過預識(shi)別(bie)系統,讓算(suan)法(fa)先進行預識(shi)別(bie),再根據結果進行人(ren)為(wei)調整(zheng),最終(zhong)在成本控制和質(zhi)量上實現(xian)顯著提(ti)升。
總體上(shang),其標注工具(ju)可實現99.9%的準確率,并達(da)到5分鐘一(yi)張、1秒(miao)一(yi)幀極速質檢,在(zai)交互、超大數據加(jia)載(zai)、實時(shi)切幀進行渲染等方面都達(da)到了行業第一(yi)。
澳鵬Appen認為,進入數據服務2.0時代,有能力深度綁定汽車全生命周期、并提供完整且高質量的數據供應服務,在行業轉型的當下至關重要。