- 前言
- 第一代數據架構 – Data Warehouse
- 第二代數據架構 – Data Lake + Data Warehouse
- 最新的數據架構 – Data Lakehouse
- Data Lakehouse 仍然有優化的空間
- 結論
- 個人感想
- 參考資料
前言
最近對於 Data Lakehouse 滿感興趣也很看好它,覺得 Data Lakehouse 有機會成為將來數據架構的主流,而最早提出 Data Lakehouse 這個專有名詞的目前看起來是 2020~2021 年 Databricks, UC Berkeley 和 Stanford University 所共同撰寫的一篇論文「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」,因此這次文章我整理了論文中提到的數據架構變遷歷史與原因,以及 Data Lakehouse 究竟有哪些優缺點、解決了哪些現在各大企業所面臨的問題。

第一代數據架構 – Data Warehouse
特色
- 從關聯式資料庫中取得「結構化資料」
- 屬於 schema-on-write(寫入時就得先定義好欄位)
缺點
- 計算和儲存兩者一體,且可能是僅有一台地端機器,導致資料管理困難、費用高昂
- 僅能儲存結構化資料,影片及音訊等數據無法儲存和查詢
隨著資料集的規模與類型快速增長,第一代數據架構已漸漸無法負荷,於是業界出現了第二代的 Two-tier 數據架構「Data Lake + Data Warehouse」。
閱讀更多»