湖倉一體：揭秘數據湖架構現代化之道

IBM China

2023-07-17 16:14 3974

作者：Hebert W. Pereyra，IBM 杰出工程(cheng)師(shi)，Hybrid Data Management首(shou)席(xi)架構(gou)師(shi)

譯者：劉俊，IBM watsonx.data開發(fa)架構師

北京(jing)2023年7月17日 /美(mei)通(tong)社/ -- 數據湖(hu)誕生至今(jin)已(yi)有(you)十多年的(de)(de)歷史，為(wei)(wei)全球一(yi)些(xie)最大(da)的(de)(de)企業提(ti)供了數據分析的(de)(de)支持。然(ran)而(er)，也有(you)人認為(wei)(wei)，絕大(da)多數數據湖(hu)部(bu)署已(yi)經演變成(cheng)為(wei)(wei)"數據沼澤(ze)"。不(bu)論(lun)你(ni)站在哪一(yi)邊，現(xian)實情況(kuang)是，這(zhe)些(xie)系統(tong)中仍然(ran)承載著大(da)量(liang)的(de)(de)數據。這(zhe)些(xie)數據規模龐(pang)大(da)，使得(de)移(yi)動、遷移(yi)或對其進(jin)行現(xian)代化都變得(de)異常困難。

數據湖的巨大挑戰：單一結構的架構問題

從較高層次來看，是一個大(da)規模的單一數(shu)據(ju)存儲庫。數(shu)據(ju)可以以原始形式存儲，也可以經過優化，采(cai)用適合專用引擎使用的不同(tong)格式。

就Hadoop而(er)言(yan)，它(ta)是(shi)最受(shou)歡迎的(de)(de)(de)數(shu)(shu)據(ju)湖之一，通過使用(yong)開源(yuan)軟件實現該存(cun)儲庫(ku)，并在(zai)通用(yong)硬(ying)件上運行，可以(yi)以(yi)非常低的(de)(de)(de)成本在(zai)系統中(zhong)(zhong)存(cun)儲大量數(shu)(shu)據(ju)。數(shu)(shu)據(ju)可以(yi)以(yi)開放的(de)(de)(de)數(shu)(shu)據(ju)格(ge)式進行持久化(hua)，從(cong)而(er)實現了數(shu)(shu)據(ju)消費的(de)(de)(de)民(min)主(zhu)化(hua)，并通過自(zi)動復制提供了高可用(yong)性的(de)(de)(de)支持。默認(ren)的(de)(de)(de)處(chu)理(li)框(kuang)架具(ju)備從(cong)故障中(zhong)(zhong)恢(hui)復的(de)(de)(de)能力。這無(wu)(wu)疑是(shi)與(yu)傳(chuan)(chuan)統分(fen)析環境有著(zhu)顯著(zhu)差異(yi)的(de)(de)(de)重要轉變，傳(chuan)(chuan)統數(shu)(shu)據(ju)分(fen)析環境往往意(yi)味著(zhu)供應商(shang)鎖定(ding)以(yi)及無(wu)(wu)法處(chu)理(li)大規(gui)模數(shu)(shu)據(ju)。

另一個出(chu)乎(hu)意料(liao)的(de)挑戰是(shi)將Spark引(yin)入作為大數(shu)據處(chu)理框架。由于(yu)其(qi)支(zhi)持數(shu)據轉換、流式處(chu)理和SQL，它(ta)迅(xun)速獲得了廣泛的(de)認可。然而，它(ta)并未能(neng)與現(xian)有的(de)數(shu)據湖環境友好共存，因此通常需要額外的(de)專用(yong)計算(suan)集群(qun)才(cai)能(neng)運行Spark。

我(wo)們將(jiang)時間前移15年回到當(dang)下，現(xian)實(shi)已經清楚(chu)地表明了這項技術所涉及的(de)(de)(de)權衡和妥協。其快(kuai)速(su)的(de)(de)(de)采(cai)用意(yi)(yi)味(wei)著客戶很快(kuai)失(shi)去了對數據(ju)(ju)湖(hu)中數據(ju)(ju)的(de)(de)(de)追蹤。同樣具有挑戰(zhan)的(de)(de)(de)是(shi)，他們無(wu)法確定數據(ju)(ju)的(de)(de)(de)來源(yuan)(yuan)、獲取方式(shi)(shi)以(yi)及在(zai)處理過(guo)程中的(de)(de)(de)轉換方式(shi)(shi)。仍然(ran)是(shi)這項技術中尚未(wei)探索的(de)(de)(de)領域。雖然(ran)軟件可能(neng)是(shi)開源(yuan)(yuan)的(de)(de)(de)，但需(xu)要有人(ren)學習如何使用、維護和支持(chi)它。僅依賴社區支持(chi)并(bing)不(bu)能(neng)持(chi)續滿足業(ye)(ye)務(wu)運營所需(xu)的(de)(de)(de)響應時間。高(gao)(gao)可用性通過(guo)復制(zhi)實(shi)現(xian)則意(yi)(yi)味(wei)著需(xu)要更(geng)(geng)多磁盤上的(de)(de)(de)數據(ju)(ju)副本，增加存(cun)儲成本，并(bing)導(dao)致(zhi)故障(zhang)更(geng)(geng)加頻(pin)繁。而高(gao)(gao)可用的(de)(de)(de)分(fen)布式(shi)(shi)處理框架則意(yi)(yi)味(wei)著不(bu)得不(bu)在(zai)性能(neng)方面(mian)做出妥協，以(yi)換取彈性（這將(jiang)導(dao)致(zhi)交互式(shi)(shi)分(fen)析和商業(ye)(ye)智能(neng)的(de)(de)(de)性能(neng)嚴重(zhong)下降(jiang)）。

為何要對數據湖進行現代化？

數據(ju)湖(hu)在特(te)定的使用(yong)場景中(zhong)已經被證(zheng)明是成功的。然而清楚的是，企業迫切需(xu)要對這些(xie)部署進行現代化，保護基礎設施、技能(neng)和存儲在這些(xie)系統中(zhong)的數據(ju)的投資。

在尋找(zhao)答案(an)的(de)過(guo)程(cheng)中，行(xing)業研究了現有的(de)數據(ju)(ju)(ju)平臺技術及其優勢。很明顯，有效的(de)方法是將傳統的(de)（或(huo)(huo)者說是遺留的(de)）數據(ju)(ju)(ju)倉庫或(huo)(huo)數據(ju)(ju)(ju)集市的(de)關鍵特性與數據(ju)(ju)(ju)湖的(de)優勢結合起來。以下幾個(ge)關鍵要素迅(xun)速浮出水面：

具備彈性和可擴展的存儲，能夠滿足日益增長的數據規模需求。
采用開放的數據格式，使數據對所有人都可訪問，同時針對高性能進行優化，并具備良好定義的結構。
開放的元數據（可共享），能夠支持多個消費引擎或框架。
支持數據更新（ACID特性）和事務并發處理。
綜合的數據安全和數據治理（如數據血緣、完整的數據訪問策略定義和執行，包括地理分布）。

上述要素導致了的出現。湖倉一體是一種數據平臺，是將數據倉庫和數據湖的優點融合在一起，形成統一、協調的數據管理解決方案。

利用watsonx.data來現代化數據湖的好處

站在(zai)當(dang)下數據分析(xi)的十(shi)字路口，IBM的回應(ying)是(shi)為企業提供watsonx.data解決方案。

站(zhan)在(zai)當下數(shu)據分析的(de)十字路口，IBM的(de)回應是為企業提供(gong)解決方案，這是一(yi)個用(yong)于大規模數(shu)據管理(li)的(de)新型(xing)開(kai)放(fang)式數(shu)據存儲，允許企業在(zai)無需遷移(yi)的(de)情況下圍(wei)繞、增強和現代化其現有的(de)數(shu)據湖和數(shu)據倉(cang)(cang)庫。它支(zhi)持開(kai)放(fang)式的(de)多云與混合云，可以在(zai)客戶管理(li)的(de)基礎設施(shi)（本地或者私(si)有云）和公有云上運行。它建(jian)立(li)在(zai)湖倉(cang)(cang)一(yi)體架構之上，并嵌入(ru)了(le)一(yi)整套解決方案（以及通用(yong)軟(ruan)件堆棧），適用(yong)于所有形(xing)態。

與市場上(shang)的(de)競(jing)品相比，IBM的(de)方(fang)法基于開源堆棧和架構(gou)。這(zhe)些(xie)組件并不是(shi)新的(de)，而是(shi)業界已經(jing)廣(guang)泛使用(yong)的(de)成熟組件。IBM關注它(ta)們(men)的(de)互操(cao)作性、共(gong)存性和元(yuan)數據(ju)交換。用(yong)戶(hu)可(ke)以快(kuai)速入門(men)，從而大(da)大(da)降低了入門(men)和使用(yong)的(de)成本，因為其上(shang)層架構(gou)和基礎概念(nian)是(shi)大(da)家(jia)熟悉且直觀的(de)：

通過對象存儲實現開放的數據（和表格格式）
通過S3進行數據訪問
使用Presto和Spark進行查詢計算（SQL、數據科學、轉換和流處理）
通過Hive和兼容結構實現開放的元數據共享

Watsonx.data為企(qi)業(ye)提供了(le)一種保護他們在數據湖和數據倉庫數十年(nian)投資的(de)(de)方式，使企(qi)業(ye)可(ke)立即擴展(zhan)并逐步現代化其安裝(zhuang)，將每(mei)個組件專注于對企(qi)業(ye)最重要的(de)(de)使用場景。

一個關鍵的差異化因素是多引擎 策略，允(yun)許用戶在統一的(de)(de)(de)數據平臺(tai)上(shang)根據實際情況選擇適(shi)合的(de)(de)(de)技(ji)術。watsonx.data使(shi)客(ke)戶能夠實現完全動態的(de)(de)(de)分(fen)層存儲(chu)（以及相關的(de)(de)(de)計算）。隨著時間的(de)(de)(de)推(tui)移，這(zhe)可(ke)以帶(dai)來非常顯著的(de)(de)(de)數據管理(li)和處(chu)理(li)的(de)(de)(de)成本節省。

如果最終企業的目標是通過湖倉一體架構來現代化現有的數據湖部署，那么watsonx.data則通過選擇計算方式來最小(xiao)化數據遷移和(he)應用遷移，從(cong)而簡化了任(ren)務。

接下來可以做什么？

在(zai)過去的(de)(de)幾年里，數(shu)據(ju)湖在(zai)大多數(shu)企(qi)(qi)業的(de)(de)數(shu)據(ju)管(guan)理策略(lve)(lve)中發揮了重要作用。如果企(qi)(qi)業的(de)(de)目標(biao)是對(dui)其(qi)數(shu)據(ju)管(guan)理策略(lve)(lve)進行演進并現(xian)代化為真正的(de)(de)混合分析(xi)云(yun)架(jia)(jia)構，那么(me)IBM基于湖倉一體(ti)架(jia)(jia)構構建的(de)(de)新(xin)型數(shu)據(ju)存儲watsonx.data，則(ze)是值得企(qi)(qi)業考慮(lv)的(de)(de)技術(shu)選擇(ze)。

相關資料：

點擊下載電子書：《為 AI而設的數據存儲》：
點擊閱讀 IBM watsonx.data 解決方案簡介：
瀏覽 watsonx.data 的產品頁面了解更多：

關于IBM
IBM 是(shi)全球(qiu)領先(xian)的(de)(de)(de)混合云(yun)、人(ren)(ren)工(gong)智能及企(qi)業(ye)服(fu)務(wu)提供商，幫助超過 175 個國家和(he)地區(qu)的(de)(de)(de)客戶(hu)，從其擁有的(de)(de)(de)數據中(zhong)獲取商業(ye)洞察，簡化(hua)業(ye)務(wu)流(liu)程(cheng)，降(jiang)低成本(ben)，并獲得行業(ye)競爭(zheng)優勢。金融服(fu)務(wu)、電信(xin)和(he)醫療健康(kang)等關鍵基礎設施領域(yu)的(de)(de)(de)超過 4000 家政府和(he)企(qi)業(ye)實體依靠(kao) IBM 混合云(yun)平臺和(he) Red Hat OpenShift 快速、高效(xiao)、安全地實現(xian)數字(zi)化(hua)轉型。IBM 在人(ren)(ren)工(gong)智能、量子計算、行業(ye)云(yun)解決方案和(he)企(qi)業(ye)服(fu)務(wu)方面(mian)的(de)(de)(de)突破性創新為我們的(de)(de)(de)客戶(hu)提供了開放和(he)靈活的(de)(de)(de)選擇。對企(qi)業(ye)誠信(xin)、透明治理、社會責任(ren)、包容文化(hua)和(he)服(fu)務(wu)精神(shen)的(de)(de)(de)長期承(cheng)諾是(shi) IBM 業(ye)務(wu)發展的(de)(de)(de)基石。了解更多信(xin)息(xi)，請訪(fang)問：

媒體聯絡人：
郭韜

消息來源：IBM China