應用

技術

物聯網世界 >> 物聯網新聞 >> 物聯網熱點新聞
企業(yè)注冊個人注冊登錄

為什么成功的數據網格實施需要數據虛擬化?

2022-03-29 14:57 企業(yè)網D1Net

導讀:集中式數據團隊對數據的了解程度無法與只專注于全部數據中特定部分的具體業(yè)務團隊相提并論。

  組織多年來的一貫做法是將所有數據整合到單一位置,例如數據倉庫或近年來興起的數據湖。但是,集中式數據基礎架構的一些弊端已初現端倪:

  集中式數據團隊對數據的了解程度無法與只專注于全部數據中特定部分的具體業(yè)務團隊相提并論。集中式數據基礎架構缺乏靈活性,難以滿足組織內所有不同部門的需求。集中多個數據源的數據不僅會耗費大量時間,而且還會導致數據使用者無法按需訪問數據。

  為了克服這些問題,技術顧問 Zhamak Dehghani 提議采用一種名為“數據網格”的分散式數據基礎架構。

  在數據網格配置中,組織內的不同部門或群組將擁有單獨的“數據域”,由中央自助式數據平臺提供支持,并按照一套總體標準進行管理,以確?;ゲ僮餍?。每個數據域都將提供“數據產品”,設計上方便目標受眾使用,且符合組織全局標準。

  值得一提的是,盡管所有權分散,但預配和治理保持集中。此架構具有直觀意義,并有望克服完全集中式基礎架構的局限性,但組織如何在獲得中央數據平臺支持與保持域的獨立性之間實現一種微妙的平衡呢?

  進入數據虛擬化

  Denodo數據虛擬化作為一種數據集成技術,堪稱實現數據網格的完美選擇。與提取、轉換和加載 (ETL) 流程以及其他面向批處理的數據集成方法不同,數據虛擬化讓數據使用者無需先將數據復制到集中式存儲庫即可訪問數據。因此,數據虛擬化在本質上可以被視為一種“分散式”數據集成策略。

  數據虛擬化是一個建立在組織內不同數據源之上的企業(yè)范圍的層。要在不同數據源之間進行查詢時,數據使用者只需查詢數據虛擬化層,然后該層便會檢索所需數據,讓使用者不必受困于訪問的復雜性。

  數據虛擬化層不含實際數據;但其存儲了訪問各種數據源所需的所有元數據。數據虛擬化提供單一位置來存儲元數據,支持組織從單一控制點,在整個組織范圍內自動實現基于角色的安全性和執(zhí)行數據治理協(xié)議。例如,組織可以自動脫敏處理薪資數據,用戶必須擁有必要憑據才可查看此類信息。

  數據虛擬化層提供數據網格架構中所需的“自助式數據平臺”的所有必要功能。組織可在數據虛擬化層之上實施多個語義層,由不同部門架構,并作為半自治數據域運行。每一個語義層都可以靈活地調整、更改或移除,而不會

  改變或影響底層數據。此外,組織可以輕松地建立支持跨域重用的標準數據定義。

  數據虛擬化和數據產品

  數據虛擬化完全適用于數據產品開發(fā)。即使編碼能力有限,利益相關者也可利用數據虛擬化層創(chuàng)建虛擬模型,無需了解為之饋送信息的數據源的復雜性。隨后,他們可以利用一系列靈活的方法(例如 SQL、REST、OData、GraphQL 或 MDX),使這些虛擬模型作為數據產品被訪問,此過程同樣不需要編寫代碼。

  “開箱即用”型數據虛擬化設置的初衷是為數據產品提供支持,使其兼容數據沿襲跟蹤、自主記錄、變更影響分析、身份管理和單點登錄 (SSO) 等功能。

  此外,數據虛擬化還支持在組織范圍內的數據產品目錄中注冊數據產品。通過集中存儲元數據,數據虛擬化層可向組織中按域有序排列的數據資產提供全功能綜合目錄的所有必要成分。

  數據虛擬化和數據域自治

  數據虛擬化使組織能夠在不影響底層數據的情況下,在源數據之上構建視圖和語義模型,因此,數據虛擬化為數據域自治提供了現成的基礎。

  在基于數據虛擬化的架構中,數據域利益相關者將能夠選擇為其產品饋送數據的數據源,并根據需要更改這一組合。許多業(yè)務部門已經在運營自己的數據集市和滿足偏好的 SaaS 應用程序,并且在數據網格配置中重用這些內容易如反掌。數據域可以通過數據虛擬化獨立擴展。

  請務必注意,數據虛擬化不能取代數據倉庫和數據湖等單體存儲庫;數據虛擬化處理此類存儲庫的方式與任何其他數據源相同,在數據網格配置中,它們將成為網格中的節(jié)點。這意味著與現有數據倉庫或數據湖聯系緊密的數據域可以繼續(xù)通過這種方式為某些數據產品提供服務,例如需要機器學習的數據產品。在這種情況下,數據產品仍將通過虛擬層被訪問,管理數據產品的協(xié)議也與管理數據網格其余部分的協(xié)議相同。

  編織網格

  數據網格可以避開高度集中型數據基礎架構的許多陷阱,是一種前景廣闊的新架構。幸運的是,數據虛擬化作為一種現代數據集成和數據管理技術,有望以一種簡單明了的方式落實數據網格理念,而無需更換舊硬件。