如何評估開源專案的價值與健康度，以及判斷是否適合導入與採用？

2025-05-022025-05-02 Jumping發表留言

在資料工程師的工作中，很常需要使用到開源工具來解決問題，像是 Apache Airflow 或 FastAPI 都是可商用且已經被泛用的開源工具，但我們該如何評估一個新的開源專案值不值得使用或研究呢？這篇文章我整理了網友和我自己的經驗，以 GitHub 為例，分享有哪些重點是我們在選擇 Open Source 時可以納入考慮的。

最優先要考慮的是需求

我認為所有的考量都要以需求出發，思考這個開源工具是否真的能解決目前遇到的問題，或是達成使用者提出的需求，並且這個工具的規範在公司內是合法合規的，都確認後才能繼續往下探討其他指標。

其他指標我目前把他們分成幾大類：

功能性
文件完整性
維護活躍度
社群支持度
程式碼品質與穩定性
安全性
相依相容性

開源專案的參考指標

1. 功能性

功能完整性： 工具的功能是否完整且穩定？是否缺少關鍵功能？
易用性：
- 這個工具是否容易安裝、設定和使用？是否有清晰的 API 或介面？
- 是否可用 pip install 安裝？
- 是否提供 Dockerfile / Docker Compose 的方式來部署？
效能：
- 工具的效能是否能處理你的資料量和運算量？是否有相關的效能測試報告？
- 這個工具在 ELT、分析、視覺化或建模方面的能力如何？

以 Apache Airflow 為例，GitHub 文件上清楚寫了可以使用 pip 或是 Docker Compose 的方式來安裝

雲端架構部署救星！介紹 Terraform 是如何大幅改善雲端基礎建設的建立流程

2025-04-102025-04-11 Jumping發表留言

過去在建立基礎架構時有許多痛點

當我們想要在雲端上建立各種服務時，通常都是透過 UI 的方式進行，但當架構越來越複雜，甚至還需要整組搬遷的時候，就會遇到很多困難，例如重新設定後可能剛好忘記 region 是設在哪、這個專案是用哪一個 Docker image，或這台機器的規格到底是幾個 CPU 多少記憶體。

整體來說，傳統建立基礎架構時會遇到以下的痛點

UI 操作過程繁雜
大量人工操作，易出錯且難以維持一致性，增加除錯時間
難以自動化，導致部署效率低
無法版本控管、追蹤變更，增加操作風險
無法重複利用，缺乏模組化設計，每次建立的成本都很高

所以我們過去在建立基礎架構時，常常需要花費大量時間與人力，效率太差，甚至可能會有許多都是重複性高的操作，而 Terraform 就是可以解決這些痛點的重要工具。

Terraform 是什麼？

Terraform 是一種「基礎架構即程式碼」工具 (Infrastructure as Code, Iac) ，讓我們使用人類易讀的設定檔中定義雲端和地端資源，並可對這些檔案進行版本控管、可重複使用和分享共用，讓所有基礎架構能在配置和管理上達成一致。

Terraform 如何運作

Terraform 主要是透過 Providers 來跟特定的雲端 API 做溝通，例如 GCP providers, AWS providers 等

在使用 Terraform 時主要有三個步驟：

【GCP】如何建立與使用一個具有 IAM 權限控管的 Cloud Run Service

2025-01-122025-01-10 Jumping發表留言

本文說明如何建立一個有鎖 IAM 權限的 GCP Cloud Run Service/Job 並使用 Python 送 Request

Step 1: 建立 Docker image 並上傳到 GCP Artifact Registry

1. 先使用 gcloud 指令進行身份驗證

登入並授權 gcr.io，才能順利將 image 下載到本機（如果是直接使用 GCP Cloud Shell 就可以不用這一步）

gcloud auth configure-docker gcr.io

2. 建立 Docker Image 並推送到 GCP Artifact Registry

docker build --platform linux/amd64 -t gcr.io/my-gcp-project/service-name .

docker push gcr.io/my-gcp-project/service-name

--platform linux/amd64: 如果是在非 linux 的作業系統（如：MacOS, Windows）中進行 image build 就需要另外指定 image 系統，不然會無法在 Cloud Run 上順利運行

Step 2: 部署 Cloud Run 並設定 Security

前往 GCP Artifact Registry 找到剛剛推上去的 Image，並將 image 部署到 Cloud Run（點擊如下圖的 Deploy to Cloud Run）

部署後可以在該 Cloud Run Service 的 Security 頁面看到預設是 Require authentication (Manage authorized users with Cloud IAM)，代表只有 IAM 許可的人可以呼叫這個 Service

Step 3: 確認 IAM permission

【Data Lakehouse】數據架構的演變：從 Data Warehouse 到 Data Lake 再進化到最新的 Data Lakehouse

2024-10-122024-10-13 Jumping1 則迴響

前言

最近對於 Data Lakehouse 滿感興趣也很看好它，覺得 Data Lakehouse 有機會成為將來數據架構的主流，而最早提出 Data Lakehouse 這個專有名詞的目前看起來是 2020~2021 年 Databricks, UC Berkeley 和 Stanford University 所共同撰寫的一篇論文「Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics」，因此這次文章我整理了論文中提到的數據架構變遷歷史與原因，以及 Data Lakehouse 究竟有哪些優缺點、解決了哪些現在各大企業所面臨的問題。

第一代數據架構 – Data Warehouse

特色

從關聯式資料庫中取得「結構化資料」
屬於 schema-on-write（寫入時就得先定義好欄位）

缺點

計算和儲存兩者一體，且可能是僅有一台地端機器，導致資料管理困難、費用高昂
僅能儲存結構化資料，影片及音訊等數據無法儲存和查詢

隨著資料集的規模與類型快速增長，第一代數據架構已漸漸無法負荷，於是業界出現了第二代的 Two-tier 數據架構「Data Lake + Data Warehouse」。

JumpingCode 資料科學手記

Python｜資料科學｜數據分析 | 非本科轉職 | 資料工程師

分類: Data Architecture

如何評估開源專案的價值與健康度，以及判斷是否適合導入與採用？

最優先要考慮的是需求

開源專案的參考指標

1. 功能性

【Data Lakehouse】數據架構的演變：從 Data Warehouse 到 Data Lake 再進化到最新的 Data Lakehouse

前言

第一代數據架構 – Data Warehouse

特色

缺點

最優先要考慮的是需求

開源專案的參考指標

1. 功能性

分享此文：

過去在建立基礎架構時有許多痛點

Terraform 是什麼？

Terraform 如何運作

分享此文：

Step 1: 建立 Docker image 並上傳到 GCP Artifact Registry

Step 2: 部署 Cloud Run 並設定 Security

Step 3: 確認 IAM permission

分享此文：

前言

第一代數據架構 – Data Warehouse

特色

缺點

分享此文：